Home

Awesome

汉语拼音相关参考资料

此项目为我在开发 overtrue/pinyin 时所用到的参考的资料收集,旨在方便有同样需求的朋友。

汉字的多音字处理

以下内容摘自: 《汉语同音字和多音字处理方法研究》- 杨宪泽,谈文蓉,刘玉萍,张 楠,殷 锋

中文是象形文字,字数多,字形复杂。西文是拼音文字,英文只有 26 个字母,加上大写小写及数字符号,总数不超过 128 个,用七位二进制码就可表达。而中文字成千上万,要用十几位二进制码才能把它们区别开来, 这给存储乃至输入方式等都造成困难。

多音字判别方法中技术的关键是基于统计特征, 特征提取使多音字正确判音有效。特征包含在特征词典中, 采用规则描述。共定义了以下特征:

参考资料

页面

统计分析与规范文档

需求设计

网站

论文

开源项目

License

CC0 1.0 Universal