Home

Awesome

CilinSimilarity

Word similarity computation based on Tongyici Cilin

这是一个基于哈工大同义词词林扩展版的单词相似度计算方法的python实现,参考了三篇paper,实现了三种相似度的计算方法。

三篇paper分别为:

Usage

示例如下

cs = CilinSimilarity()
w1 = '抄袭'
w2 = '克隆'
code1 = cs.get_code(w1)
print(w1, '的编码有:', code1)
code2 = cs.get_code(w2)
print(w2, '的编码有:', code2)
sim = cs.similarity(w1, w2)
print(w1, w2, '最终的相似度为', sim)

输出结果如下

抄袭 的编码有: ['Hb08B04=', 'Hn10C01=']
克隆 的编码有: ['Hd04A03=']
common_str:  H
k 2
n 14
Hb08B04= Hd04A03= 的相似度为: 0.585642777645155
common_str:  H
k 10
n 14
Hn10C01= Hd04A03= 的相似度为: 0.22524722217121346
抄袭 克隆 最终的相似度为 0.585642777645155

[2013]和[2016]两篇的计算方法,分别调用cs.sim2013(w1, w2)cs.sim2016(w1, w2)即可。

如有错误,请指正,lls9107@qq.com