Selenium Python-访问搜索结果的下一页

问题是具有id的element的值total_results在页面加载后发生变化，首先包含117，然后变为44。

相反，这是一种更可靠的方法。它逐页处理，直到没有剩余的页面了：

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException

driver = webdriver.Firefox()
url = 'http://www.nice.org.uk/Search.do?searchText=bevacizumab&newsearch=true#/search/?searchText=bevacizumab&mode=&staticTitle=false&SEARCHTYPE_all2=true&SEARCHTYPE_all1=&SEARCHTYPE=GUIDANCE&TOPICLVL0_all2=true&TOPICLVL0_all1=&HIDEFILTER=TOPICLVL1&HIDEFILTER=TOPICLVL2&TREATMENTS_all2=true&TREATMENTS_all1=&GUIDANCETYPE_all2=true&GUIDANCETYPE_all1=&STATUS_all2=true&STATUS_all1=&HIDEFILTER=EGAPREFERENCE&HIDEFILTER=TOPICLVL3&DATEFILTER_ALL=ALL&DATEFILTER_PREV=ALL&custom_date_from=&custom_date_to=11-06-2014&PAGINATIONURL=%2FSearch.do%3FsearchText%40%40bevacizumab%26newsearch%40%40true%26page%40%40&SORTORDER=BESTMATCH'
driver.get(url)

page_number = 1
while True:
    try:
        link = driver.find_element_by_link_text(str(page_number))
    except NoSuchElementException:
        break
    link.click()
    print driver.current_url
    page_number += 1

基本上，这里的想法是获取下一页链接，直到没有此类链接（NoSuchElementException将被抛出）。请注意，它适用于任意数量的页面和结果。

它打印：

http://www.nice.org.uk/Search.do?searchText=bevacizumab&newsearch=true&page=1
http://www.nice.org.uk/Search.do?searchText=bevacizumab&newsearch=true&page=2#showfilter
http://www.nice.org.uk/Search.do?searchText=bevacizumab&newsearch=true&page=3#showfilter
http://www.nice.org.uk/Search.do?searchText=bevacizumab&newsearch=true&page=4#showfilter
http://www.nice.org.uk/Search.do?searchText=bevacizumab&newsearch=true&page=5#showfilter

python 2022/1/1 18:14:35 有520人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

Greasemonkey 1.0中的jQuery与使用jQuery的网站冲突

Greasemonkey 1.0中的jQuery与使用jQuery的网站冲突

JS 2022-01-01 1214
强制JsonConvert.SerializeXmlNode将节点值序列化为Integer或Boolean

强制JsonConvert.SerializeXmlNode将节点值序列化为Integer或Boolean

Node 2022-01-01 1139
JDBC ResultSet获取具有表别名的列

JDBC ResultSet获取具有表别名的列

其他 2022-01-01 1159
Jenkins XmlParser报告未找到根节点属性的此类字段

Jenkins XmlParser报告未找到根节点属性的此类字段

其他 2022-01-01 953
无法获取Servlet以UTF-8格式处理请求内容

无法获取Servlet以UTF-8格式处理请求内容

Jave 2022-01-01 982
我可以在php中的SESSION数组上使用array_push吗？

我可以在php中的SESSION数组上使用array_push吗？

php 2022-01-01 1172
带有React的ESLint会给出“ no-unused-vars”错误

带有React的ESLint会给出“ no-unused-vars”错误

其他 2022-01-01 1186
Spring Boot Jersey和监视URL

Spring Boot Jersey和监视URL

Java 2022-01-01 1022
无法在Ubuntu上将ElasticSearch作为服务运行

无法在Ubuntu上将ElasticSearch作为服务运行

其他 2022-01-01 971
如何提高Elasticsearch函数得分的字段长度范数？

如何提高Elasticsearch函数得分的字段长度范数？

其他 2022-01-01 1027
我如何重新连接使用selenium的webdriver打开的浏览器？

我如何重新连接使用selenium的webdriver打开的浏览器？

其他 2022-01-01 1077
如何使用Servlet和Ajax？

如何使用Servlet和Ajax？

Jave 2022-01-01 1194
elasticsearch-返回字段的标记

elasticsearch-返回字段的标记

其他 2022-01-01 997
Spring Security自定义过滤器

Spring Security自定义过滤器

Java 2022-01-01 979
什么是selenium，什么是WebDriver？

什么是selenium，什么是WebDriver？

其他 2022-01-01 986
尝试使用selenium和python登录网页时出错

尝试使用selenium和python登录网页时出错

python 2022-01-01 1018
从Servlet内检索从JSON发送为JSON的数据

从Servlet内检索从JSON发送为JSON的数据

Jave 2022-01-01 965
在移动设备上进行selenium测试值得吗？

在移动设备上进行selenium测试值得吗？

其他 2022-01-01 879
如何制作URL过滤器以使用Servlet路由动作？

如何制作URL过滤器以使用Servlet路由动作？

Jave 2022-01-01 901
非阻塞getch（），ncurses

非阻塞getch（），ncurses

其他 2022-01-01 1120

Selenium Python-访问搜索结果的下一页

撰写回答

推荐问题

Greasemonkey 1.0中的jQuery与使用jQuery的网站冲突

强制JsonConvert.SerializeXmlNode将节点值序列化为Integer或Boolean

JDBC ResultSet获取具有表别名的列

Jenkins XmlParser报告未找到根节点属性的此类字段

无法获取Servlet以UTF-8格式处理请求内容

我可以在php中的SESSION数组上使用array_push吗？

带有React的ESLint会给出“ no-unused-vars”错误

Spring Boot Jersey和监视URL

无法在Ubuntu上将ElasticSearch作为服务运行

如何提高Elasticsearch函数得分的字段长度范数？

我如何重新连接使用selenium的webdriver打开的浏览器？

如何使用Servlet和Ajax？

elasticsearch-返回字段的标记

Spring Security自定义过滤器

什么是selenium，什么是WebDriver？

尝试使用selenium和python登录网页时出错

从Servlet内检索从JSON发送为JSON的数据

在移动设备上进行selenium测试值得吗？

如何制作URL过滤器以使用Servlet路由动作？

非阻塞getch（），ncurses

分类汇总

您的鼓励是对我最大的支持