可以在管道处理期间从spaCy文档中删除令牌吗？

spaCy的标记化，因此它始终代表原始输入文本，并且从不添加或删除任何内容。这是Doc对象的一种核心原理：您应该始终能够重建和再现原始输入文本。

尽管可以解决此问题，但通常有更好的方法可以实现相同的目的而不破坏输入文本?Doc文本一致性。一种解决方案是根据您要使用的任何目标，向令牌添加自定义扩展属性，例如is_excluded：

from spacy.tokens import Token

def get_is_excluded(token):
    # Getter function to determine the value of token._.is_excluded
    return token.text in ['some', 'excluded', 'words']

Token.set_extension('is_excluded', getter=get_is_excluded)

处理时Doc，您现在可以对其进行过滤，以仅获取未排除的令牌：

doc = nlp("Test that tokens are excluded")
print([token.text for token if not token._.is_excluded])
# ['Test', 'that', 'tokens', 'are']

您还可以使用Matcher或PhraseMatcher在上下文中找到标记序列并将其标记为已排除，从而使其更加复杂。

另外，出于完整性考虑：如果您确实想更改中的令牌Doc，则可以通过构造一个新的Doc对象来实现此目的，words该对象具有（字符串列表）和可选spaces（布尔值列表，指示令牌后跟空格还是空格）不）。要构造Doc具有词性标签或依赖项标签 Doc.from_array之类的属性的，您可以调用具有要设置的属性和值（所有ID）的numpy数组的方法。

其他 2022/1/1 18:49:25 有549人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

我可以在php中的SESSION数组上使用array_push吗？

我可以在php中的SESSION数组上使用array_push吗？

php 2022-01-01 1171
如果是两个组的成员，是否可以为TestNG设置条件以运行测试？

如果是两个组的成员，是否可以为TestNG设置条件以运行测试？

其他 2022-01-01 974
我可以使用BeautifulSoup删除脚本标签吗？

我可以使用BeautifulSoup删除脚本标签吗？

其他 2022-01-01 1017
是否可以从eclispe中的mysql表生成带有休眠注释的java类文件

是否可以从eclispe中的mysql表生成带有休眠注释的java类文件

MySQL 2022-01-01 1183
大小相等的表格单元格可以填充包含表格的整个宽度

大小相等的表格单元格可以填充包含表格的整个宽度

其他 2022-01-01 878
Hibernate工具可以生成JPA POJO吗？

Hibernate工具可以生成JPA POJO吗？

其他 2022-01-01 1083
可以移动Docker容器（不提供Docker映像）吗？

可以移动Docker容器（不提供Docker映像）吗？

其他 2022-01-01 918
有人可以解释“双重否定”的把戏吗？

有人可以解释“双重否定”的把戏吗？

其他 2022-01-01 774
我们可以使用Spring Boot来实现Java库吗？

我们可以使用Spring Boot来实现Java库吗？

java 2022-01-01 827
有没有一种方法可以使特定密钥在集群模式下位于特定Redis实例上？

有没有一种方法可以使特定密钥在集群模式下位于特定Redis实例上？

其他 2022-01-01 808
phantomjs可以与node.js一起使用吗？

phantomjs可以与node.js一起使用吗？

Node 2022-01-01 887
是否可以从组件外部触发Redux操作？

是否可以从组件外部触发Redux操作？

其他 2022-01-01 961
我们可以在React Native应用程序中使用Node.js代码吗？

我们可以在React Native应用程序中使用Node.js代码吗？

Node 2022-01-01 904
使用PHP或JavaScript提交表单失败后，是否可以重新填充文件输入？

使用PHP或JavaScript提交表单失败后，是否可以重新填充文件输入？

php 2022-01-01 1051
我的applicationContext中可以有多个PropertyPlaceHolderConfigurer吗？

我的applicationContext中可以有多个PropertyPlaceHolderConfigurer吗？

其他 2022-01-01 925
是否可以使用通配符从目录中的所有文件导入模块？

是否可以使用通配符从目录中的所有文件导入模块？

其他 2022-01-01 901
是否可以自定义printf？

是否可以自定义printf？

其他 2022-01-01 911
在IndexedDB中，是否可以进行排序的复合查询？

在IndexedDB中，是否可以进行排序的复合查询？

其他 2022-01-01 898
为什么CSS可以处理假元素？

为什么CSS可以处理假元素？

CSS 2022-01-01 805
可以嵌套在P元素内的HTML5元素列表？

可以嵌套在P元素内的HTML5元素列表？

其他 2022-01-01 897

可以在管道处理期间从spaCy文档中删除令牌吗？

撰写回答

推荐问题

我可以在php中的SESSION数组上使用array_push吗？

如果是两个组的成员，是否可以为TestNG设置条件以运行测试？

我可以使用BeautifulSoup删除脚本标签吗？

是否可以从eclispe中的mysql表生成带有休眠注释的java类文件

大小相等的表格单元格可以填充包含表格的整个宽度

Hibernate工具可以生成JPA POJO吗？

可以移动Docker容器（不提供Docker映像）吗？

有人可以解释“双重否定”的把戏吗？

我们可以使用Spring Boot来实现Java库吗？

有没有一种方法可以使特定密钥在集群模式下位于特定Redis实例上？

phantomjs可以与node.js一起使用吗？

是否可以从组件外部触发Redux操作？

我们可以在React Native应用程序中使用Node.js代码吗？

使用PHP或JavaScript提交表单失败后，是否可以重新填充文件输入？

我的applicationContext中可以有多个PropertyPlaceHolderConfigurer吗？

是否可以使用通配符从目录中的所有文件导入模块？

是否可以自定义printf？

在IndexedDB中，是否可以进行排序的复合查询？

为什么CSS可以处理假元素？

可以嵌套在P元素内的HTML5元素列表？

分类汇总

您的鼓励是对我最大的支持