在Python中清理HTML
我建议Beautifulsoup。它具有出色的解析器,可以相当优雅地处理格式错误的标记。阅读完整个树后,就可以输出结果了。
from bs4 import BeautifulSoup tree = BeautifulSoup(bad_html) good_html = tree.prettify()
我已经使用过很多次了,它的确很神奇。如果您只是从bad-html中提取数据,那么BeautifulSoup在提取数据时确实很出色。
你尚未登录,登录后可以
和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进,让解决方法与时俱进
联系我
602392714
清零编程群