底线:最终,对于您实施的任何系统,绝对没有替代人为检查的(无论是同行还是其他方式)。可以随意实施一个基本工具来摆脱偷渡行为,但是对于确定的巨魔,您绝对必须使用基于非算法的方法。
一个消除匿名性并引入问责制(Stack Overflow做得很好的系统)的系统也很有用,特别是为了帮助对抗John Gabriel的GIFT
您还询问了在哪里可以找到亵渎列表,从这里开始- 一个要检查的开源项目是Dansguardian-检查其默认亵渎列表的源代码。您还可以为代理下载其他第三方短语列表,这可能对您有所帮助。
感谢您对要执行的操作的说明。在这种情况下,如果您只是尝试做一个简单的单词过滤器,则有两种方法可以实现。一种方法是使用您要检查的所有禁止短语创建一个长的正则表达式,而只用它进行正则表达式查找/替换。正则表达式如:
$filterRegex = "(boogers|snot|poop|shucks|argh)"
然后使用preg_match()在您的输入字符串上运行它,以全面测试匹配项,
或preg_replace()将其清空。
您也可以使用数组而不是单个长的正则表达式来加载这些函数,对于长单词列表,它可能更易于管理。
您还添加了:“首先 获取单词列表是真正的问题。 ”-除了以前的Dansgaurdian链接以外,您可能会发现这个方便的458个单词的.zip很有帮助。