有这样一个需求:需要对于用户发布的内容标题进行相似度对比,如果有之前的内容和当前发布的内容标题相似度到达某个阈值时则禁止发布或进行其他的一些操作。看到这个需求,可能就想到需要使用某种算法来实现,例如:TF-IDF、基于空间向量的余弦算法、最长公共子序列、最小编辑距离算法、Jaccard 系数等等。最小编辑距离算法在 PHP 中已经有了实现:levenshtein[https://www.php.net/levenshtein],计算两个字符串之间的编辑距离。 编辑距离,是指两个字符串之间,通过替换、插入、删除等操作…