Home

Awesome

Yaha分词

"哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha

PS. 这里有一个crfseg 是对crf++的封装。目前丑陋适合拿来学习。

词语生成(NEWS!)

以前在extra/seqword.cpp实现词语发现功能,现在已升级优化,并独立出来:项目地址

使用多线程,以及类似MapReduce的思想,可以处理50M+的文本,自动得到文本当中的专业名词、名字、地点名词等等词语。得到词语后可以加到分词工库的字典中。

安装

pip install yaha

QQ交流群(同时也是vxworks-kernel-like项目的交流群): 2749-83126

在线演示

代码部署在GAE上:http://yahademo.appspot.com

代码部署在SAE上:http://yaha.sinaapp.com

原本的这个地址已不再使用:http://yaha.v-find.com/

示例代码:https://github.com/jannson/yaha/blob/master/tests/test_cuttor.py

Feature

Algorithm

阶段讲解

目前状态

一直在用,貌似没有什么问题。最后要感谢jieba的作者,目前的字典是直接从jieba项目拷贝过来的。