Python Unicode正则表达式匹配失败，并带有一些Unicode字符-错误或错误？

这是模块中的错误，re并且已在regex模块中修复：

# -*- coding: utf-8 -*-
from __future__ import unicode_literals
import unicodedata
import re
import regex  # $ pip install regex

word = "??????"


def test(re_):
    assert re_.search("^\\w+$", word, flags=re_.UNICODE)

print([unicodedata.category(cp) for cp in word])
print(" ".join(ch for ch in regex.findall("\\X", word)))
assert all(regex.match("\\w$", c) for c in ["a", "\u093f", "\u0915"])

test(regex)
test(re)  # fails

输出结果显示，中有6个代码点"??????"，但只有3个用户可感知的字符（扩展的字素簇）。 Unicode文本分段说：

词素，行边界和句子边界 不应出现在 字素簇中：换句话说，就确定这些其他边界的过程而言，字素簇应该是一个原子单位。

在这里，进一步的重点是我的

单词边界在docs中\b定义为从\w到\W（或反向）的过渡：

请注意，形式上，\ b定义为\ w和\ W字符之间的边界（反之亦然）或\ w与字符串的开头/结尾之间的边界，…

因此，构成单个字符的所有代码点都是\w或全部\W。在这种情况下"??????"匹配^\w{6}$。

从Python 2@L_502_7@：

如果设置了UNICODE，它将匹配字符[0-9_]加上 Unicode字符属性数据库中 分类为 字母数字的 任何字符。

在Python 3中：

匹配Unicode单词字符；这 包括可以在任何语言中的单词的一部分大多数字符 ，以及数字和下划线。

从regex文档：

“单词”字符的定义（问题＃1693050）：

“单词”字符的定义已扩展为Unicode。现在，它符合Unicode规范，网址为 http://www.unicode.org/reports/tr29/。这适用于\ w，\ W，\ b和\ B。

根据 unicode.org U+093F（DEVANAGARI VOWEL SIGN I），它是字母和数字，因此即使我们遵循并非基于单词边界的定义，regex也应该考虑它\w。

python 2022/1/1 18:44:10 有299人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

尝试使用selenium和python登录网页时出错

尝试使用selenium和python登录网页时出错

python 2022-01-01 1022
从Python访问errno？

从Python访问errno？

python 2022-01-01 1048
gcloud compute copy-files：复制文件时拒绝权限

gcloud compute copy-files：复制文件时拒绝权限

其他 2022-01-01 1107
在服务器上运行selenium浏览器（Flask / Python / Heroku）

在服务器上运行selenium浏览器（Flask / Python / Heroku）

Python 2022-01-01 1262
ImportError：没有使用Python2的名为mysql.connector的模块

ImportError：没有使用Python2的名为mysql.connector的模块

MySQL 2022-01-01 1239
Python：无法在网页中使用selenium下载

Python：无法在网页中使用selenium下载

python 2022-01-01 1030
带有Selenium的Python“元素未附加到页面文档中”

带有Selenium的Python“元素未附加到页面文档中”

python 2022-01-01 1039
在Jenkins中设置特定的Python

在Jenkins中设置特定的Python

python 2022-01-01 939
Python：从文件中选择随机行，然后删除该行

Python：从文件中选择随机行，然后删除该行

python 2022-01-01 998
从Python字符串中删除不在允许列表中的HTML标签

从Python字符串中删除不在允许列表中的HTML标签

python 2022-01-01 1071
从python读取json文件

从python读取json文件

python 2022-01-01 957
通过Python3使用Selenium和WebDriver切换选项卡时，“ NoSuchWindowException：没有这样的窗口：窗口已经关闭”

通过Python3使用Selenium和WebDriver切换选项卡时，“ NoSuchWindowException：没有这样的窗口：窗口已经关闭”

python 2022-01-01 1036
pythonselenium多个测试用例

pythonselenium多个测试用例

python 2022-01-01 973
连接所有PostgreSQL表并创建一个Python字典

连接所有PostgreSQL表并创建一个Python字典

SQLServer 2022-01-01 1112
带有selenium的Python：无法找到真正存在的元素

带有selenium的Python：无法找到真正存在的元素

python 2022-01-01 1036
列出用户和组的Python脚本

列出用户和组的Python脚本

python 2022-01-01 963
在capybara中选择具有多个类的元素

在capybara中选择具有多个类的元素

其他 2022-01-01 881
如何以正确的顺序导入Scrapy项目密钥？

如何以正确的顺序导入Scrapy项目密钥？

其他 2022-01-01 948
如何确定是否为Selenium + Python加载了某些HTML元素？

如何确定是否为Selenium + Python加载了某些HTML元素？

python 2022-01-01 918
使用Java与Python的Selenium Webdriver

使用Java与Python的Selenium Webdriver

python 2022-01-01 944

Python Unicode正则表达式匹配失败，并带有一些Unicode字符-错误或错误？

撰写回答

推荐问题

尝试使用selenium和python登录网页时出错

从Python访问errno？

gcloud compute copy-files：复制文件时拒绝权限

在服务器上运行selenium浏览器（Flask / Python / Heroku）

ImportError：没有使用Python2的名为mysql.connector的模块

Python：无法在网页中使用selenium下载

带有Selenium的Python“元素未附加到页面文档中”

在Jenkins中设置特定的Python

Python：从文件中选择随机行，然后删除该行

从Python字符串中删除不在允许列表中的HTML标签

从python读取json文件

通过Python3使用Selenium和WebDriver切换选项卡时，“ NoSuchWindowException：没有这样的窗口：窗口已经关闭”

pythonselenium多个测试用例

连接所有PostgreSQL表并创建一个Python字典

带有selenium的Python：无法找到真正存在的元素

列出用户和组的Python脚本

在capybara中选择具有多个类的元素

如何以正确的顺序导入Scrapy项目密钥？

如何确定是否为Selenium + Python加载了某些HTML元素？

使用Java与Python的Selenium Webdriver

分类汇总

您的鼓励是对我最大的支持