您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

使用Python,BeautifulSoup进行动态数据Web抓取

使用Python,BeautifulSoup进行动态数据Web抓取

如果您使用requests.get检索页面,则JavaScript代码将不会执行。因此,应改为使用硒。在浏览器中打开页面时,它将模仿用户喜欢的行为,因此将执行js代码

要开始使用selenium,您需要安装@H_301_3@pip install selenium。然后使用以下代码检索您的商品:

@H_301_3@from selenium import webdriver

browser = webdriver.Firefox()
# List of the page url and selector of element to retrieve.
wiki_pages = [("https://tools.wmflabs.org/pageviews/?project=en.wikipedia.org&platform=all-access&agent=user&range=latest-20&pages=Star_Wars:_The_Last_Jedi",
               ".summary-column--container .legend-block--pageviews .linear-legend--counts:first-child span.pull-right"),]
for wiki_page in wiki_pages:
    url = wiki_page[0]
    selector = wiki_page[1]
    browser.get(wiki_page)
    page_views_count = browser.find_element_by_css_selector(selector)
    print page_views_count.text
browser.quit()

:如果需要运行无头浏览器,请考虑使用PyVirtualDisplayXvfb的包装器)运行无头WebDriver测试,请参阅“如何在Xvfb中运行Selenium?‘ 欲获得更多信息。

python 2022/1/1 18:43:12 有276人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶