Home

Awesome

词语相似度高级版

综合词林扩展版与Hownet的相似度计算策略和评价指标,来自文献1,代码为本人实现。采用融合计算方式,扩大了词汇覆盖面,也改进了计算结果的合理性。</br>

具体算法选择</br>

参考文献

【1】《基于知网与词林的词语语义相似度计算》朱新华,马润聪,孙柳,陈宏朝,2016年7月《中文信息学报》 </br> 【2】《基于路径与深度的同义词词林词语相似度计算》陈宏朝, 李飞, 朱新华,马润聪. 2016年9月《中文信息学报》</br> 【3】《基于信息内容的词林词语相似度计算》彭琦, 朱新华, 陈意山,等.2018年2月《计算机应用研究》</br> 【4】《基于多重继承与信息内容的知网词语相似度计算》张波,陈宏朝,朱新华等.2017年10月 《计算机应用研究》

不同语义库上算法对比:

相似度方法所用语义词典词汇量皮尔逊系数
田久乐 赵蔚(2010)同义词词林774560.53
吕立辉等(2013)同义词词林774560.74
陈宏朝等(2016-9)同义词词林774560.856
yaleimeng(2018)改进的词林774900.917
相似度方法所用语义词典词汇量皮尔逊系数
刘群、李素建(2002)HowNet(知网)533350.699
Seco(2004)+Lin方法HowNet(知网)533350.738
李峰、李芳(2007)HowNet(知网)533350.793
张波等(2017)改进HowNet533350.84
相似度方法所用语义词典词汇量皮尔逊系数
yaleimeng(2018)词林+HowNet857770.885

注:</br> 1 上面的皮尔逊系数均在MC30数据集上测得。</br> 2 本混合方法计算可调节词林与hownet计算结果的权重,表格中成绩可能为最大值(两词均被同时收录)。</br>

如需了解预训练词向量计算的中文词语相关度,可参见:中文近义词工具包Synonyms

原创不易,欢迎打赏、捐赠:</br> <img src="https://github.com/yaleimeng/Scrapy_Projects/blob/master/movie/payQR.png" title="Logo" width="400" />