Home

Awesome

基于Pytorch的中文语义相似度匹配模型

基于Pytorch的中文语义相似度匹配模型

本项目将持续更新,对比目前业界主流文本匹配模型在中文的效果

运行环境: python3.7、pytorch1.2、transformers2.5.1

数据集采用LCQMC数据(将一个句对进行分类,判断两个句子的语义是否相同(二分类任务)),因数据存在侵权嫌疑,故不提供下载,需要者可向官方提出数据申请http://icrc.hitsz.edu.cn/info/1037/1146.htm ,并将数据解压到data文件夹即可。模型评测指标为:ACC,AUC以及预测总共耗时。

Embeding:
本项目输入都统一采用分字策略,故通过维基百科中文语料,训练了字向量作为Embeding嵌入。训练语料、向量模型以及词表,可通过百度网盘下载。
链接:https://pan.baidu.com/s/1qByw67GdFSj0Vt03GSF0qg
提取码:s830

模型文件:
本项目训练的模型文件(不一定最优,可通过超参继续调优),也可通过网盘下载。
链接:https://pan.baidu.com/s/1qByw67GdFSj0Vt03GSF0qg
提取码:s830

测试集结果对比:

模型ACCAUC耗时(s)(备注:环境1070TI)
ABCNN0.80810.90594.6260
Albert0.85220.947552.3823
Bert0.87140.954461.2800
BIMPM0.83590.937518.8210
DecomposableAttention0.80680.93343.7170
DistilBert0.84500.940331.1680
ESIM0.83850.93112.7410
RE20.83910.91965.2200
Roberta0.87260.959161.3130
SiaGRU0.82810.93363.5500
XlNet0.86940.960189.8090

部分模型,借鉴了
https://github.com/alibaba-edu/simple-effective-text-matching-pytorch
https://github.com/pengshuang/Text-Similarity
等项目。