Awesome
OpenCC 简繁转换之通用规范汉字标准
[!NOTE]
- 由于转换词典的底稿是 OpenCC 的简繁转换词典,少许异体字的使用并不符合中国大陆标准,仍需进一步校对。
- 由于排除了异体字,本表不包含由繁至简的转换,可使用 OpenCC 现有繁简转换。
介绍
本仓库提供以中国大陆标准为基础的 OpenCC 转换词典,基于《通用规范汉字表》(以下简称《通规》)、《简化字总表》(以下简称《总表》)、OpenCC 数据等资料制作。
原则
- 简繁关系、异体字关系、适用意项、字形以《通规》为基础,辅以《新华字典》、《现代汉语词典》(以下简称《现汉》)、《汉语大字典》(以下简称《大字典》)参考修正。
- 只考虑由简到繁的转换,不进行异体字、异写字的转换。
- 对于表外汉字(包括表内含可类推简化部件的异体字),可依照《总表》第二表进行类推简化;不符合《总表》规则的类推不予收录。以下提及“类推简化”时,如无特别说明,均需符合《总表》类推规则。
- 字形以统一码 G 源字为准,若无 G 源字形的,需类推其应有的 G 源字形。如“麪”需参考其 G 源字形“⿰麥丏”而非 H 源“⿺麥丏”;那么“𪋿”字虽无 G 源字形,也需类推为“⿰麥卜”而非参考已有的 H 源“⿺麥卜”。
统一码中 G 源字形与预期应有字形不一致的,在此修正
单字 | 统一码 | G 源字形 | 修正字形 | 备注 |
---|---|---|---|---|
栃 | U+6803 | ⿰木⿸𠂆万 | ⿰木厉 | 大陆标准中,“厉”字第一笔应为横;由于无字体如此设计,本条修正等效于将“栃〔櫔〕”添加到《总表》的第一表 |
关于《通规》
本表以《通规》为基础,但依然会酌情考虑字词之非通用意项,如姓氏、地名、旧意(参考前述辞书),因此个别字的繁体略有不同。
规范字 | 《通规》繁体字 | 修正 | 备注 |
---|---|---|---|
荐 | 薦 | +荐 | 《大字典》荐:➌副词。表示频度,相当于“一再”、“屡次”。…… |
价 | 價 | +价 | 《新华字典》价 jiè:旧时称被派遣传送东西或传达事情的人。 |
柜 | 櫃 | +柜 | 《新华字典》柜 jǔ:柜柳,落叶乔木,即枫杨,羽状复叶,性耐湿、耐碱,可固沙。枝韧,可以编筐。 |
适 | 適 | +适 | 《现汉》适 kuò:➊同“𨓈”。➋(Kuò)姓。 |
篱 | 篱 籬 | -篱 | 《大字典》篱:同“籬”。……按:今为“籬”的简化字。《新华字典》、《现汉》之繁体“籬”亦可用于所有意项。 |
确 | 確 | +确 | 《新华字典》确 què:➍同“埆”。 |
胜 | 勝 | +胜 | 《新华字典》胜 shēng:“肽”(tài)的旧称。 |
腊 | 臘 | +腊 | 《新华字典》腊 xī:干肉。 |
佣 | 傭 | +佣 | 《新华字典》佣 yòng:佣金,佣钱,买卖东西时给介绍人的钱。 |
愿 | 願 | +愿 | 《新华字典》愿 yuàn:➍恭谨。 |
蜡 | 蠟 | +蜡 | 《新华字典》蜡 zhà:古代年终的一种祭祀名。 |
只 | 隻 衹 | +只 | 《现汉》只² Zhǐ:姓。 |
关于《总表》
制定《总表》时,一些简化方式可能会导致不合理的情况。这在《通规》发布后,通过不类推表外字而暂时绕开了。由于本仓库会收录类推简化字,所以不得不做一点小的修正。
- “㝉〔宁〕”、“丝〔絲〕”应添加到第二表。
- “乌〔烏〕”、“鸟〔鳥〕” 上部(即除“一〔灬〕”以外的部分)亦添加到第二表,以兼容“凫〔鳬〕”、“岛〔島〕”等字。
- 繁体中,“萈”与“莧”是两个不同声旁,事实上都简化为了“苋”,因此需额外添加“苋〔萈〕”到第二表。
- “毂〔轂〕”应添加到第一表。
- 由于大量含“㒼”偏旁的字被类推简化为含“𬜯”的字,应添加“𬜯〔㒼〕”到第二表的简化偏旁部分。与“只〔戠〕”类似,此简繁对应关系仅在作为偏旁时成立。
- 规定“與”作上偏旁时不类推简化,如“𱊭->鸒”,而将“𱉰”视为异体字(除非“𱉰”加入《通规》,否则不视为简繁关系)。
- 规定“廣”作上偏旁和左上包围偏旁时不类推简化,如“懬”不类推简化为“応”。
- 规定“氣”作上偏旁和右上包围偏旁时不类推简化,如“𣱩”不类推简化为“氜”。
- 区分“㚒”与“夾”,“夾”简化为“夹”,并适用类推,而“㚒”不类推简化,因此“陕〔陝〕”应放入第一表,而非第三表。
- “龻”只在作上偏旁时类推简化为“𰁜”,如“䜌”、“羉”不简化为“𰁜”、“⿱罒𰁜”。
- 如同“酆”字若类推简化为“⿰丰阝”,会与“邦”字混同,“奱”字若类推简化“⿱𰁜大”,亦会与“奕”字混同;应效仿《通规》中的做法,规定“奱”字不类推简化。
- 若造成《通规》未提及的合并简化,且简化后为《通规》规范汉字,则放弃类推简化;若合并简化后不为《通规》规范汉字,则可添加为一对多转换。如“戠”单用时不合并简化到“只”、“橒”和“枟”可合并简化到“枟”。
由于某些类推简化无望加入统一码,作如下妥协,若今后有相关字形加入统一码,则废除相应妥协
- 当“龻”不简化为“𰁜”时,组成它的“糹”、“言”不当作左偏旁,即不类推简化为“⿲纟言纟”。
- “𨊥”不类推简化为“⿱车凵”,如“轚”应类推简化为“𰺟”。
关于类推简化
按照现行标准,《通规》以外的汉字不进行类推简化,但实际使用时会遇到类推简化字,因此本表收录了符合《总表》类推简化规则的字。具体收录原则如下:
- 《通规》中的异体字类推简化后,不是规范字的,可额外收录。如“𬣣->註”。
- 《通规》中的繁体字类推简化后,不是规范字的,可额外收录。如“𪠽->噹”。
- 《通规》外的繁体字若可无争议地类推简化,且符合前述关于《总表》之修正时,可额外收录。如大部分鸟类用字、鱼类用字。
- 若存在只能属于简体的偏旁,则不作为繁体收录;若存在只能属于繁体的偏旁,则不作为简体收录。如“𧹔”字中的“贝”只能属于简体,而“長”只能属于繁体,则该字既不能作为繁体、也不能作为简体收录。
- 不规范的类推简化不收录。如“𪹀->𤑹”。
- 简体或繁体未分配统一码的,暂不收录。