Home

Awesome

Словник гетеронімів української мови

English version

Словник містить слова, що пишуться однаково, але мають різну вимову (гетероніми). Іноді це відбувається, коли слова мають різне значення:

Але більшість гетеронімів це слова, які мають різний наголос в залежності від форми слова (відмінку, множини, часу тощо). Наприклад:

Формат

Кожна група гетеронімів подається на окремому рядку. Кожен рядок має формат

headword [TAB]  heteronym1,heteronym2

headword це слово без наголосу, як воно зазвичай подається на письмі. heteronym1, heteronym2 це слова, які мають різну вимову (їх може бути більше, ніж два). Наголос в цих словах позначається Unicode символом COMBINING ACUTE ACCENT, що ставиться після наголошеної голосної.

Приклад коду на Python, який парсить цей формат:


dictionary = {}
with open("heteronyms.tsv") as f:
    for line in f:
        line = line.rstrip("\n")
        headword, heteronyms = line.split("\t")
        dictionary[headword] = heteronyms.split(",")

print(dictionary["пташки"])
# Out: ['пташки́', 'пта́шки']

Джерело

Словник сформував Олексій Сивоконь на основі "Словників України" Українського мовно-інформаційного фонду НАН України.