您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

python中的regex模式,用于解析HTML标题标签

python中的regex模式,用于解析HTML标题标签

您正在使用正则表达式,并且将与此类表达式匹配的HTML变得太复杂,太快。

取而代之的是使用HTML解析器,Python有多种选择。我建议您使用BeautifulSoup,这是一个受欢迎的3rd party库。

BeautifulSoup示例:

from bs4 import BeautifulSoup

response = urllib2.urlopen(url)
soup = BeautifulSoup(response.read(), from_encoding=response.info().getparam('charset'))
title = soup.find('title').text

由于title标签本身不包含其他标签,因此可以在此处使用正则表达式,但是一旦尝试解析嵌套标签就会 遇到非常复杂的问题。

您可以通过匹配title标记中的其他字符来解决您的特定问题,可以选择:

r'<title[^>]*>([^<]+)</title>'

匹配0个或多个 不是>括号的字符。此处的“ 0或更多”可让您同时匹配额外的属性和纯<title>标签

python 2022/1/1 18:41:12 有282人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶