您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

从reStructuredText提取字段列表

从reStructuredText提取字段列表

您可以尝试使用类似以下代码内容。而不是使用publish_parts我曾经使用过的方法publish_doctree获取文档的伪XML表示形式。然后,我已转换为XML DOM,以提取所有field元素。然后我得到每个元素的第一个field_namefield_body元素field

from docutils.core import publish_doctree

source = """Some text ...

:foo: bar

Some text ...
"""

# Parse reStructuredText input, returning the Docutils doctree as
# an `xml.dom.minidom.Document` instance.
doctree = publish_doctree(source).asdom()

# Get all field lists in the document.
fields = doctree.getElementsByTagName('field')

d = {}

for field in fields:
    # I am assuming that `getElementsByTagName` only returns one element.
    field_name = field.getElementsByTagName('field_name')[0]
    field_body = field.getElementsByTagName('field_body')[0]

    d[field_name.firstChild.nodeValue] = \
        " ".join(c.firstChild.nodeValue for c in field_body.childNodes)

print d # Prints {u'foo': u'bar'}

xml.dom的模块是不是最容易与工作(为什么我需要使用.firstChild.nodeValue,而不是仅仅.nodeValue例如),所以你可能希望使用xml.etree.ElementTree模块,我觉得轻松了许多与工作。如果您使用LXML你也可以使用XPath表示法来找到所有的fieldfield_namefield_body元素。

其他 2022/1/1 18:47:21 有501人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶