Python中的字符串相似度度量

我想找到两个字符串之间的字符串相似性。 This页有其中一些的例子。 Python有一个implemnetation Levenshtein algorithm.有没有更好的算法,(和希望一个python库),在这些约束下。

>我想做字符串之间的模糊匹配。例如matches(‘Hello,All you people’,’hello,all You peopl’)应该返回True
>假阴性是可接受的,假阳性,除非在极少数情况下不是。
>这是在非实时设置,所以速度不是(很多)的关注。
> [编辑]我比较多字串。

除了Levenshtein距离(或Levenshtein比率)之外的东西对我的情况是一个更好的算法吗?

在谢菲尔德大学有一个伟大的资源的字符串相似度指标。它有一个列表的各种度量(除了Levenshtein)和开源实现它们。看起来很多人应该很容易适应Python。

http://web.archive.org/web/20081224234350/http://www.dcs.shef.ac.uk/~sam/stringmetrics.html

这里有一个列表:

>汉明距离
> Levenshtein距离
> Needleman-Wunch距离或Sellers算法
>和更多…

http://stackoverflow.com/questions/1471153/string-similarity-metrics-in-python

本站文章除注明转载外,均为本站原创或编译
转载请明显位置注明出处:Python中的字符串相似度度量