Awesome
Icelandic Pronunciation Dictionary for Language Technology
Lexical conceptual resource
Authors: Anna Björk Nikulásdóttir, Bjarki Ármannsson, Bryndís Bergþórsdóttir, Eiríkur Rögnvaldsson
Publisher: Grammatek ehf
Contact: anna@grammatek.com
Repository: https://github.com/grammatek/iceprondict
License: Creative Commons Attribution 4.0 International (CC BY 4.0; See repository for text)
The Icelandic Pronunciation Dictionary contains manually revised transcriptions in four pronunciation variants of Icelandic: the standard pronunciation, the northern post-aspiration variant ("harðmæli"), the north-eastern variant post-aspiration + voiced pronunciation, and the southern hv-variant. For descriptions of Icelandic pronunciation variants, see the respective documents IPA_Pronunciation.pdf
or SAMPA_Pronunciation.pdf
(the documents have identical content but the former describes the matter using the IPA phonetic alphabet and the latter uses the SAMPA phonetic alphabet).
The file sampa_ipa_single.tsv
contains the set of SAMPA symbols used in the dictionaries and their mappings to IPA on the one hand and on a custom developed single-character alphabet developed for use in end-to-end speech synthesis.
The repository contains training and test data, both for the training and testing of g2p models, and for the testing of automatic syllabification and stress labeling algorithms.
The project is funded by the Icelandic Government as a part of the Language Technology Programme for Icelandic 2019–2023 which is described in the following publication:
Anna Björk Nikulásdóttir, Jón Guðnason, Anton Karl Ingason, Hrafn Loftsson, Eiríkur Rögnvaldsson, Einar Freyr Sigurðsson, Steinþór Steingrímsson. 2020. Language Technology Programme for Icelandic 2019–2023. Proceedings of LREC 2020 (https://arxiv.org/pdf/2003.09244.pdf)
Íslensk framburðarorðabók fyrir máltækni
Höfundar: Anna Björk Nikulásdóttir, Bjarki Ármannsson, Bryndís Bergþórsdóttir, Eiríkur Rögnvaldsson
Útgefandi: Grammatek ehf.
Tengiliður: anna@grammatek.com
Leyfi: Creative Commons Attribution 4.0 International (CC BY 4.0; Sjá leyfistexta í gagnaskjóðu)
Íslensk framburðarorðabók inniheldur handyfirfarnar hljóðritanir í fjórum framburðartilbrigðum íslensku: það sem kalla má hefðbundinn framburð, norðlenskt harðmæli, harðmæli + raddaðan framburð sem einkennandi er fyrir norð-austurland, og sunnlenskan hv-framburð. Nánari lýsingar á framburði og framburðartilbrigðum í íslensku er að finna í skjölunum IPA_Pronunciation.pdf
eða SAMPA_Pronunciation.pdf
(þessi skjöl eru eins að öllu leyti, nema að fyrra skjalið notar IPA-hljóðritunarstafrófið en það seinna SAMPA-stafrófið til þess að lýsa framburði).
Skjalið sampa_ipa_single.tsv
inniheldur lista SAMPA hljóðritunartákna sem notuð eru í orðabókinni og varpanir yfir á tákn í IPA annars vegar og yfir á nýtt stafróf hins vegar, þar sem hvert hljóð er alltaf táknað með einum bókstaf/tölustaf, en slíkt stafróf getur nýst vel í "end-to-end" talgervingu.
Hirslan inniheldur einnig þjálfunar- og prófunargögn fyrir þjálfun grapheme-to-phoneme (g2p) líkana, sem og prófunarsett fyrir sjálfvirka atkvæðaskiptingu og áherslumerkingar.
Verkefnið er hluti af Máltækniáætlun fyrir íslensku 2019-2023.
Anna Björk Nikulásdóttir, Jón Guðnason, Anton Karl Ingason, Hrafn Loftsson, Eiríkur Rögnvaldsson, Einar Freyr Sigurðsson, Steinþór Steingrímsson. 2020. Language Technology Programme for Icelandic 2019–2023. Proceedings of LREC 2020 (https://arxiv.org/pdf/2003.09244.pdf)