正则表达式用于Python中的重音不敏感替换

unidecode经常被提及用于删除Python中的重音符号，但它的作用还不止于此：它将转换'°'为'deg'，这可能不是所需的输出。

unicodedata似乎具有消除口音的功能。

此方法应适用于任何模式和任何文本。

您可以从文本和正则表达式模式中暂时删除重音。来自re.finditer()（开始和结束索引）的匹配信息可用于修改原始的带重音符号的文本。

请注意，必须颠倒匹配项才能不修改以下索引。

import re
import unicodedata

original_text = "I'm drinking a 80° café in a cafe with Chloë, François Déporte and Francois Deporte."

accented_pattern = r'a café|François Déporte'

def remove_accents(s):
    return ''.join((c for c in unicodedata.normalize('NFD', s) if unicodedata.category(c) != 'Mn'))

print(remove_accents('äöüßéèiìììíàáç'))
# aoußeeiiiiiaac

pattern = re.compile(remove_accents(accented_pattern))

modified_text = original_text
matches = list(re.finditer(pattern, remove_accents(original_text)))

for match in matches[::-1]:
    modified_text = modified_text[:match.start()] + 'X' + modified_text[match.end():]

print(modified_text)
# I'm drinking a 80° café in X with Chloë, X and X.

你可以：

import re
from unidecode import unidecode

original_text = "I'm drinking a café in a cafe with Chloë."

def remove_accents(string):
    return unidecode(string)

accented_words = ['café', 'français']

words_to_remove = set(remove_accents(word) for word in accented_words)

def remove_words(matchobj):
    word = matchobj.group(0)
    if remove_accents(word) in words_to_remove:
        return 'X'
    else:
        return word

print(re.sub('\w+', remove_words, original_text))
# I'm drinking a X in a X with Chloë.

python 2022/1/1 18:50:06 有724人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

Codeigniter路由正则表达式-在控制器/方法名称中使用破折号

Codeigniter路由正则表达式-在控制器/方法名称中使用破折号

其他 2022-01-01 809
Java正则表达式以匹配ASCII字符

Java正则表达式以匹配ASCII字符

java 2022-01-01 704
正则表达式/代码来修复损坏的序列化PHP数据。

正则表达式/代码来修复损坏的序列化PHP数据。

php 2022-01-01 706
php正则表达式[b]至 ****

php正则表达式[b]至 ****

php 2022-01-01 593
将Javascript正则表达式转换为Java语法

将Javascript正则表达式转换为Java语法

javascript 2022-01-01 820
引用MySQL正则表达式中的组？

引用MySQL正则表达式中的组？

MySQL 2022-01-01 660
转到：正则表达式以交换大小写

转到：正则表达式以交换大小写

其他 2022-01-01 692
正则表达式以匹配Java中的URL

正则表达式以匹配Java中的URL

java 2022-01-01 696
正则表达式中应转义哪些文字字符？

正则表达式中应转义哪些文字字符？

其他 2022-01-01 860
Jenkins脚本化管道中的分支指定符正则表达式

Jenkins脚本化管道中的分支指定符正则表达式

其他 2022-01-01 666
C＃正则表达式匹配不包含某个字符串的字符串？

C＃正则表达式匹配不包含某个字符串的字符串？

c# 2022-01-01 726
如何编写与嵌套括号匹配的递归正则表达式？

如何编写与嵌套括号匹配的递归正则表达式？

其他 2022-01-01 765
PHP正则表达式模式中需要额外的反斜杠

PHP正则表达式模式中需要额外的反斜杠

php 2022-01-01 605
如何使用正则表达式使点匹配换行符

如何使用正则表达式使点匹配换行符

其他 2022-01-01 724
正则表达式加上明星区别？

正则表达式加上明星区别？

其他 2022-01-01 649
正则表达式如何匹配所有标点符号，但排除某些条件

正则表达式如何匹配所有标点符号，但排除某些条件

其他 2022-01-01 850
正则表达式Java

正则表达式Java

java 2022-01-01 640
如何在正则表达式中添加连字符

如何在正则表达式中添加连字符

其他 2022-01-01 607
如何在JavaScript中将长正则表达式拆分为多行？

如何在JavaScript中将长正则表达式拆分为多行？

javascript 2022-01-01 654
sed-如何使用sed做正则表达式组

sed-如何使用sed做正则表达式组

其他 2022-01-01 618

正则表达式用于Python中的重音不敏感替换

撰写回答

推荐问题

Codeigniter路由正则表达式-在控制器/方法名称中使用破折号

Java正则表达式以匹配ASCII字符

正则表达式/代码来修复损坏的序列化PHP数据。

php正则表达式[b]至 ****

将Javascript正则表达式转换为Java语法

引用MySQL正则表达式中的组？

转到：正则表达式以交换大小写

正则表达式以匹配Java中的URL

正则表达式中应转义哪些文字字符？

Jenkins脚本化管道中的分支指定符正则表达式

C＃正则表达式匹配不包含某个字符串的字符串？

如何编写与嵌套括号匹配的递归正则表达式？

PHP正则表达式模式中需要额外的反斜杠

如何使用正则表达式使点匹配换行符

正则表达式加上明星区别？

正则表达式如何匹配所有标点符号，但排除某些条件

正则表达式Java

如何在正则表达式中添加连字符

如何在JavaScript中将长正则表达式拆分为多行？

sed-如何使用sed做正则表达式组

分类汇总

您的鼓励是对我最大的支持