在Python中解析HTML时获取位置信息

经过一些额外的研究并更仔细地检查了html5lib的源代码，我发现它html5lib.tokenizer.HTMLTokenizer确实保留了部分位置信息。“部分”是指它知道给定令牌的最后一个字符的行和列。不幸的是，它没有保留令牌开始的位置（我想可以推断出它的位置，但这感觉就像是反向地重新实现了很多令牌生成器-不，使用前一个的结束位置不会如果标记之间有空白，则可以正常工作）。

无论如何，我都可以包装HTMLTokenizer和创建一个 HTMLParser克隆，该克隆主要复制API。您可以在这里找到我的作品：https ://gist.github.com/waylan/7d5b7552078f1abc6fac。

但是，由于令牌生成器只是html5lib实现的解析过程的一部分，因此我们放弃了html5lib的大部分内容。例如，在该过程的那个阶段还没有进行规范化，因此您得到的是原始（可能无效）的令牌，而不是规范化的文档。如那里的评论所述，这不是完美的，我质疑它是否有用。

实际上，我还发现Python标准库中包含的HTMLParser已针对Python 3.3更新，并且不再因无效输入而崩溃。据我所知，（对于我的用例）更好的是，它确实提供了实际有用的位置信息（一如既往）。在所有其他方面，我的html5lib包装器并没有好坏（当然，它大概已经接受了更多的测试，因此更加稳定）。不幸的是，此更新尚未反向移植到Python 2或更早的Python 3版本。虽然，我认为自己做起来不会那么困难。

无论如何，我决定继续使用标准库中的HTMLParser，并拒绝自己的html5lib包装器。您可以在这里看到一个早期的工作，该工作似乎需要最少的测试才能很好地工作。

根据Beautiful Soup文档，HTMLParser已更新为支持Python 2.7.3和3.2.2中早于3.3的无效输入。

python 2022/1/1 18:38:30 有263人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

如何在PHP变量中去除空格？

如何在PHP变量中去除空格？

php 2022-01-01 1184
我可以在php中的SESSION数组上使用array_push吗？

我可以在php中的SESSION数组上使用array_push吗？

php 2022-01-01 1179
如何使用bcrypt在PHP中对密码进行哈希处理？

如何使用bcrypt在PHP中对密码进行哈希处理？

php 2022-01-01 930
如何在PHP中使用XMLReader？

如何在PHP中使用XMLReader？

php 2022-01-01 1070
PDOException“找不到驱动程序”在PHP

PDOException“找不到驱动程序”在PHP

php 2022-01-01 1052
为什么在pom.xml的第1行中出现Unknown错误？

为什么在pom.xml的第1行中出现Unknown错误？

其他 2022-01-01 1232
__construct（）与SameAsClassName（）在PHP中的构造函数

__construct（）与SameAsClassName（）在PHP中的构造函数

php 2022-01-01 859
使用Retrofit2在POST请求中发送JSON

使用Retrofit2在POST请求中发送JSON

其他 2022-01-01 961
用单引号在PHP中打印换行符

用单引号在PHP中打印换行符

php 2022-01-01 874
可以嵌套在P元素内的HTML5元素列表？

可以嵌套在P元素内的HTML5元素列表？

其他 2022-01-01 903
为什么在PHP中通过标头（'Location ..'）重定向后必须调用'exit'？

为什么在PHP中通过标头（'Location ..'）重定向后必须调用'exit'？

php 2022-01-01 847
如何在PHP中发出异步GET请求？

如何在PHP中发出异步GET请求？

php 2022-01-01 861
如何在php中为其他所有函数调用自动调用函数

如何在php中为其他所有函数调用自动调用函数

php 2022-01-01 920
当软键盘出现在phonegap中时，输入字段隐藏

当软键盘出现在phonegap中时，输入字段隐藏

其他 2022-01-01 880
在PHP中连接n个数组的值

在PHP中连接n个数组的值

php 2022-01-01 880
在PHP中“ =>”是什么意思？

在PHP中“ =>”是什么意思？

php 2022-01-01 900
在PHP中写入新行到文件（换行）

在PHP中写入新行到文件（换行）

php 2022-01-01 833
文件上传可以在PHP中超时吗？

文件上传可以在PHP中超时吗？

php 2022-01-01 875
如何在Python中使用Selenium滚动到页面的末尾？

如何在Python中使用Selenium滚动到页面的末尾？

python 2022-01-01 871
在PHP中对关联数组进行排序

在PHP中对关联数组进行排序

php 2022-01-01 837

在Python中解析HTML时获取位置信息

撰写回答

推荐问题

如何在PHP变量中去除空格？

我可以在php中的SESSION数组上使用array_push吗？

如何使用bcrypt在PHP中对密码进行哈希处理？

如何在PHP中使用XMLReader？

PDOException“找不到驱动程序”在PHP

为什么在pom.xml的第1行中出现Unknown错误？

__construct（）与SameAsClassName（）在PHP中的构造函数

使用Retrofit2在POST请求中发送JSON

用单引号在PHP中打印换行符

可以嵌套在P元素内的HTML5元素列表？

为什么在PHP中通过标头（'Location ..'）重定向后必须调用'exit'？

如何在PHP中发出异步GET请求？

如何在php中为其他所有函数调用自动调用函数

当软键盘出现在phonegap中时，输入字段隐藏

在PHP中连接n个数组的值

在PHP中“ =>”是什么意思？

在PHP中写入新行到文件（换行）

文件上传可以在PHP中超时吗？

如何在Python中使用Selenium滚动到页面的末尾？

在PHP中对关联数组进行排序

分类汇总

您的鼓励是对我最大的支持