Home

Awesome

OpenCC 简繁转换之通用规范汉字标准

[!NOTE]

介绍

本仓库提供以中国大陆标准为基础的 OpenCC 转换词典,基于《通用规范汉字表》(以下简称《通规》)、《简化字总表》(以下简称《总表》)、OpenCC 数据等资料制作。

原则

  1. 简繁关系、异体字关系、适用意项、字形以《通规》为基础,辅以《新华字典》、《现代汉语词典》(以下简称《现汉》)、《汉语大字典》(以下简称《大字典》)参考修正。
  2. 只考虑由简到繁的转换,不进行异体字、异写字的转换。
  3. 对于表外汉字(包括表内含可类推简化部件的异体字),可依照《总表》第二表进行类推简化;不符合《总表》规则的类推不予收录。以下提及“类推简化”时,如无特别说明,均需符合《总表》类推规则。
  4. 字形以统一码 G 源字为准,若无 G 源字形的,需类推其应有的 G 源字形。如“麪”需参考其 G 源字形“⿰⁠麥⁠丏”而非 H 源“⿺⁠麥⁠丏”;那么“𪋿”字虽无 G 源字形,也需类推为“⿰⁠麥⁠卜”而非参考已有的 H 源“⿺⁠麥⁠卜”。

统一码中 G 源字形与预期应有字形不一致的,在此修正

单⁠字统⁠一⁠码G 源⁠字⁠形修⁠正⁠字⁠形备⁠注
U+6803⿰⁠木⁠⿸⁠𠂆⁠万⿰⁠木⁠厉大陆标准中,“厉”字第一笔应为横;由于无字体如此设计,本条修正等效于将“栃〔櫔〕”添加到《总表》的第一表

关于《通规》

本表以《通规》为基础,但依然会酌情考虑字词之非通用意项,如姓氏、地名、旧意(参考前述辞书),因此个别字的繁体略有不同。

规⁠范⁠字《⁠通⁠规⁠》⁠繁⁠体⁠字修⁠正备⁠注
+荐《大字典》荐:➌副词。表示频度,相当于“一再”、“屡次”。……
+价《新华字典》价 jiè:旧时称被派遣传送东西或传达事情的人。
+柜《新华字典》柜 jǔ:柜柳,落叶乔木,即枫杨,羽状复叶,性耐湿、耐碱,可固沙。枝韧,可以编筐。
+适《现汉》适 kuò:➊同“𨓈”。➋(Kuò)姓。
篱 籬-篱《大字典》篱:同“籬”。……按:今为“籬”的简化字。《新华字典》、《现汉》之繁体“籬”亦可用于所有意项。
+确《新华字典》确 què:➍同“埆”。
+胜《新华字典》胜 shēng:“肽”(tài)的旧称。
+腊《新华字典》腊 xī:干肉。
+佣《新华字典》佣 yòng:佣金,佣钱,买卖东西时给介绍人的钱。
+愿《新华字典》愿 yuàn:➍恭谨。
+蜡《新华字典》蜡 zhà:古代年终的一种祭祀名。
隻 衹+只《现汉》只² Zhǐ:姓。

关于《总表》

制定《总表》时,一些简化方式可能会导致不合理的情况。这在《通规》发布后,通过不类推表外字而暂时绕开了。由于本仓库会收录类推简化字,所以不得不做一点小的修正。

  1. “㝉〔宁〕”、“丝〔絲〕”应添加到第二表。
  2. “乌〔烏〕”、“鸟〔鳥〕” 上部(即除“一〔灬〕”以外的部分)亦添加到第二表,以兼容“凫〔鳬〕”、“岛〔島〕”等字。
  3. 繁体中,“萈”与“莧”是两个不同声旁,事实上都简化为了“苋”,因此需额外添加“苋〔萈〕”到第二表。
  4. “毂〔轂〕”应添加到第一表。
  5. 由于大量含“㒼”偏旁的字被类推简化为含“𬜯”的字,应添加“𬜯〔㒼〕”到第二表的简化偏旁部分。与“只〔戠〕”类似,此简繁对应关系仅在作为偏旁时成立。
  6. 规定“與”作上偏旁时不类推简化,如“𱊭->鸒”,而将“𱉰”视为异体字(除非“𱉰”加入《通规》,否则不视为简繁关系)。
  7. 规定“廣”作上偏旁和左上包围偏旁时不类推简化,如“懬”不类推简化为“応”。
  8. 规定“氣”作上偏旁和右上包围偏旁时不类推简化,如“𣱩”不类推简化为“氜”。
  9. 区分“㚒”与“夾”,“夾”简化为“夹”,并适用类推,而“㚒”不类推简化,因此“陕〔陝〕”应放入第一表,而非第三表。
  10. “龻”只在作上偏旁时类推简化为“𰁜”,如“䜌”、“羉”简化为“𰁜”、“⿱⁠罒⁠𰁜”。
  11. 如同“酆”字若类推简化为“⿰⁠丰⁠阝”,会与“邦”字混同,“奱”字若类推简化“⿱⁠𰁜⁠大”,亦会与“奕”字混同;应效仿《通规》中的做法,规定“奱”字不类推简化。
  12. 若造成《通规》未提及的合并简化,且简化后为《通规》规范汉字,则放弃类推简化;若合并简化后不为《通规》规范汉字,则可添加为一对多转换。如“戠”单用时不合并简化到“只”、“橒”和“枟”可合并简化到“枟”。

由于某些类推简化无望加入统一码,作如下妥协,若今后有相关字形加入统一码,则废除相应妥协

  1. 当“龻”不简化为“𰁜”时,组成它的“糹”、“言”当作左偏旁,即类推简化为“⿲⁠纟⁠言⁠纟”。
  2. “𨊥”不类推简化为“⿱⁠车⁠凵”,如“轚”应类推简化为“𰺟”。

关于类推简化

按照现行标准,《通规》以外的汉字不进行类推简化,但实际使用时会遇到类推简化字,因此本表收录了符合《总表》类推简化规则的字。具体收录原则如下:

  1. 《通规》中的异体字类推简化后,不是规范字的,可额外收录。如“𬣣->註”。
  2. 《通规》中的繁体字类推简化后,不是规范字的,可额外收录。如“𪠽->噹”。
  3. 《通规》外的繁体字若可无争议地类推简化,且符合前述关于《总表》之修正时,可额外收录。如大部分鸟类用字、鱼类用字。
  4. 若存在只能属于简体的偏旁,则不作为繁体收录;若存在只能属于繁体的偏旁,则不作为简体收录。如“𧹔”字中的“贝”只能属于简体,而“長”只能属于繁体,则该字既不能作为繁体、也不能作为简体收录。
  5. 不规范的类推简化不收录。如“𪹀->𤑹”。
  6. 简体或繁体未分配统一码的,暂不收录。