概述
输出树的形式(S(NP / DT bag / NN)是/ VBZ(JP blue / JJ)),其中我定义了语法名词短语(NP)和形容词短语(JP)
为了进行匹配,我考虑了几条路线:
>删除相关树中的确定器节点,然后进行比较
>将所有限定符节点的值更改为公共值,例如X.
>制作除标记为’DT’的所有叶节点的列表
>如果我编写一个递归函数来遍历名词短语树,直到它到达带有限定词的叶子,我无法修改原始树中的值,因为它只传递值.
>我发现的关于nltk树的唯一删除函数是一个需要相对于树的根删除节点的确切索引的函数,如[0,0]格式,如果它是最左边的子节点根节点的最左边的子节点.这很难获得,因为它很可能涉及每个节点的随树高而增长的整数列表
>我创建了一个列表列表,其中每个列表都包含一个名词短语的所有叶子,不包括确定者,并对它们进行了比较.
所以,我的问题是,
如何在不首先获取[0,1,…]形式的索引的情况下从NLTK树中删除节点?
如何在不使用索引的情况下修改叶值?(我想使用递归函数,每当函数命中我要修改的叶子时,我想修改它)
如果这些不可能,我怎样才能获得叶子的索引?我很难过. Nltk树具有树位功能,但这仅适用于子树.与其他节点相比,Python是否认为叶子是不同的类型?因为树位不适合我的叶子.这可能是因为我的叶子是元组而不仅仅是字符串,但我不知道如何改变它,因为这是pos标记器的输出.那么是否有某种方式替换我的叶子,这是形式[/ DT]的形式元组与形式的子树(DT)?再次定义递归过程不会修改原始树.
有什么建议/意见吗?
tree = Tree.parse("(S (NP The/DT bag/NN) is/VBZ (JP blue/JJ))")
删除节点:
tree.remove(Tree(‘JP’,[‘blue / JJ’]))
tree.remove( ‘是/ VBZ’)
修改值.你可以通过获取Tree成员的索引来做到这一点(记住,它继承了列表):
tree.index( ‘是/ VBZ’)
遍历叶子的最佳方法是使用tree.leaves()获取叶子,然后通过tree.leaf_treeposition(index)获取索引,并使用这些来就地修改/删除叶子.
总结
以上是编程之家为你收集整理的python – 比较两个相似的,不相同的NLTK树全部内容,希望文章能够帮你解决python – 比较两个相似的,不相同的NLTK树所遇到的程序开发问题。
如果您也喜欢它,动动您的小指点个赞吧