Awesome
Distant-Supervised-Chinese-Relation-Extraction
基于远监督的中文关系抽取
数据集构建
- 中文通用知识库CN-DBpedia
- 远监督假设
处理流程可在 kg_data/README.md 中查看。点击此处(谷歌云盘)下载处理后的数据子集。
模型选择
使用 thunlp/OpenNRE 的模型, 具体信息参考其说明。
源链接: https://github.com/thunlp/OpenNRE
运行代码
数据集文件目录代码默认为 data/chinese,在命令中运行:
python train_demo.py chinese pcnn att
模型结果
部分关系的结果如下:
类别 | 精准度 | 召回率 | F1分数 |
---|---|---|---|
全部 | 0.95428 | 0.95036 | 0.95232 |
/人物/其它/民族 | 0.98374 | 0.979 | 0.98137 |
NA | 0.96853 | 0.97824 | 0.97336 |
/人物/地点/国籍 | 0.84075 | 0.92673 | 0.88164 |
/组织/地点/位于 | 0.85157 | 0.83652 | 0.84398 |
/人物/其它/职业 | 0.86121 | 0.8037 | 0.83147 |
/人物/组织/毕业于 | 0.84137 | 0.78092 | 0.81002 |
/组织/人物/校长 | 0.94118 | 0.59259 | 0.72727 |
/人物/地点/出生地 | 0.81049 | 0.49028 | 0.61097 |
/人物/人物/家庭成员 | 0.65385 | 0.37778 | 0.47887 |
/人物/组织/属于 | 0.99999 | 0.11364 | 0.20408 |
/地点/地点/包含 | 0.99999 | 0.0625 | 0.11765 |
/组织/人物/创始人 | 0.99999 | 0.05882 | 0.11111 |
某些关系的召回率很低,分析发现原因可能是数据集中该关系的样本非常少。