您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

使用python Web抓取动态内容

使用python Web抓取动态内容

您可以使用ghost.py直接与页面上的JavaScript交互,而不必尝试进行反向工程。

如果您在chrome控制台中运行以下查询,则会看到该查询返回您想要的所有内容

document.getElementsByClassName('inline-text-org');

退货

[<div class=?"inline-text-org" title=?"University of Manchester">?University of Manchester?</div>, 
 <div class=?"inline-text-org" title=?"University of California Irvine">?University of California ...?</div>?
  etc...

您可以使用ghost.py在真实的DOM中通过python运行JavaScript 。

这真的很酷:

from ghost import Ghost
ghost = Ghost()
page, resources = ghost.open('http://academic.research.microsoft.com/Search?query=lander')
result, resources = ghost.evaluate(
    "document.getElementsByClassName('inline-text-org');")
python 2022/1/1 18:42:09 有284人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶