Home

Awesome

ShenceCup.extract_keywords

神策杯第五名解决方案,数据没有传上来,大家运行可以有问题,但是可以阅读代码,作为参考。

1. 运行环境和依赖

python2.7 依赖Python包:pandas numpy pyhanlp jieba gensim

2. 数据清洗说明

从训练数据进行新词发现,合成自定义词典,利用jieba进行分词 运行程序: ./process.sh

3. 主程序运行

提取语料关键词 python extract_keywords.py > o & 关键词分析结果会在目录下result.csv文件中。

解题思路:

通过对训练语料训练分析,发现书名号内的引用内容,和人名等信息最容易作为关键词,所以使用pyhanlp包来进行命名实体识别,识别人名。另外,使用textrank提取文本摘要,使用tfidf来对关键词进行排序。优先级策略为:书名号内容 > 人名 > 在训练语料中出现过的关键词 > textrank + tfidf 权重排序。模型没有使用外部语料。