Awesome
Click here for English readme!
Manócska – integrált igei vonzatkeret adatbázis
A Manócska adatbázis összefogja és harmonizálja a magyar nyelvű igei vonzatkeret adatbázisokat és az igékről elérhető információkat, melyek a következők:
- Magyar igei szerkezetek (szótár). Sass Bálint et al.
- 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet (lista). Sass Bálint.
- Tádé – Igei vonzatkeret-gyakorisági lista. Kornai András et al.
- PrevLex – Igekötős igék táblázata. Kalivoda Ágnes.
- Infinitívuszi szerkezetek a magyarban. Kalivoda Ágnes.
- A MetaMorpho magyar-angol változatának igei vonzatkeret adatbázisa. Prószéky Gábor et al.
Tartalmazza az összes ige-igekötő-vonzatkeret hármast a fenti erőforrásokból származó gyakoriságokkal.
Az erőforrás szerkezete
Az erőforrás a következő fájlokból áll:
- manocska.txt: a Manócska adatbázis TSV formátumban (a sorok ige és keret szerint rendezve)
- manocska.sorted.txt: rang szerint rendezve (ez adatbázisonként a keret előfordulásának és az összes keret előfordulásának hányadosa)
- manocska.sorted.nolex.txt: rang szerint rendezve, a lexikálisan kötött argumentumot tartalmazó keretek kihagyva
- manocska.sorted.lex.txt: rang szerint rendezve, csak a lexikálisan kötött argumentumot tartalmazó keretek
- manocska.log.txt: információk az összevonásról és néhány statisztika
- manocska.xml.gz: a Manócska adatbázis XML formátumban
manocska.txt, manocska.sorted.txt, manocska.sorted.nolex.txt, manocska.sorted.lex.txt:
- Minden mező Tab-bal van elválasztva
- Első mező: az ige (igekötő |-al van elválasztva)
- Második mező: az argumentumok szóközzel elválasztva
- az esetek emMorph-szerű kódban vannak megadva (a [Poss] minden személyű birtokost egységesen jelöl)
- INF_ prefixummal az infinitív argumentumok
- = jellel prefixálva a névutók
- @ jelzi, ha nincs argumentum
- ??? olyan esetekben szerepel, amikor nincs információnk a vonzatkeretről
- a lexikálisan kötött elemek szótöve és az eset illetve névutó közvetlenül kapcsolódik
- Harmadik mező: a keret frekvenciája a Magyar igei szerkezetek (szótár) alapján
- Negyedik mező: a keret frekvenciája a 500000 igei szerkezet (lista) alapján
- Ötödik mező: a keret frekvenciája a Tádé alapján
- Hatodik mező: az (igekötős) ige frekvenciája a PrevLex alapján (nem igekötős igékre None, minden keretre azonos)
- Hetedik mező: az infinitívuszi vonzattal rendelkező igék frekvenciája Kalivoda Ágnes Infinitívuszi szerkezetek a magyarban vizsgálata alapján (infinitívuszi vonzattal nem rendelkező igékre None, minden keretre azonos)
- Nyolcadik mező: a keret frekvenciája a MetaMorpho alapján
- Kilencedik mező: a rang
Az erőforrás előállítása
A reprodukálhatóságot könnyítendő a Manócska előállítható a többi erőforrás előfeldolgozott formátumainak felhasználásával, az alábbi parancsok segítségével (git clone --recursive ...). A git repozitórium nem tartalmazza az eredeti erőforrásokat, melyek szükségesek a reprodukcióhoz, azok licensze miatt.
time (python3 merge.py --TSV 2> manocska.log.txt | tee manocska.txt | sort --parallel=$(nproc) -t$'\t' -k9,9nr -k1,2 | \
tee manocska.sorted.txt | grep -v $'[^\t ][=[]' > manocska.sorted.nolex.txt) &&
cat manocska.sorted.txt | grep $'[^\t ][=[]' > manocska.sorted.lex.txt
Licensz
Felhasználható oktatási, kutatási és magáncélra. Ez esetben a Manócska által felhasznált összes erőforrást a szerzők kérésének megfelelően kell hivatkozni. Továbbiakban a Manócska készítése során felhasznált erőforrások jogtulajdonosainak álláspontja a mértékadó.
A Manócska a következő bibliográfiai bejegyzések egyikével hivatkozható:
Ágnes Kalivoda, Noémi Vadász, Balázs Indig. Manócska: A Unified Verb Frame Database for Hungarian. Proceedings of the 21st International Conference on Text, Speech and Dialogue (TSD 2018). 135--143. Brno 2018.
@inproceedings{nlp:tsd18conf/pp124-132,
title={{\textsc {Manócska}: A Unified Verb Frame Database for Hungarian}},
booktitle={{Proceedings of the 21st International Conference on Text, Speech and Dialogue---TSD 2018, Brno, Czech Republic}},
series = {Lecture Notes in Artificial Intelligence},
volume = 11107,
year = 2018,
editor = {Petr Sojka and Ale{\v s} Hor{\'a}k and Ivan Kope{\v c}ek and Karel Pala},
month = Sep,
day = {11--14},
author={{\'A}gnes Kalivoda and No{\'e}mi Vad{\'a}sz and Bal{\'a}zs Indig},
pages={135--143},
doi={https://doi.org/10.1007/978-3-030-00794-2_14},
publisher = {Springer-Verlag},
isbn = {978-3-030-00794-2},
}
Vadász Noémi, Kalivoda Ágnes, Indig Balázs. Egy egységesített magyar igei vonzatkerettár építése és felhasználása XIV. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2018). 3--15. Szeged. 2018.
@inproceedings{vadasz_kalivoda_indig_2018a,
title = {Egy egys{\'e}ges{\'i}tett magyar igei vonzatkerett{\'a}r {\'e}p{\'i}t{\'e}se {\'e}s felhaszn{\'a}l{\'a}sa},
booktitle = {XIV. Magyar Sz{\'a}m{\'i}t{\'o}g{\'e}pes Nyelv{\'e}szeti Konferencia (MSZNY 2018)},
year = {2018},
pages = {3{\textendash}15},
publisher={Szegedi Tudom{\'a}nyegyetem Informatikai Tansz{\'e}kcsoport},
organization = {Szegedi Tudom{\'a}nyegyetem Informatikai Int{\'e}zet},
address = {Szeged},
author = {Vad{\'a}sz, No{\'e}mi and Kalivoda, {\'A}gnes and Indig, Bal{\'a}zs},
editor = {Vincze, Veronika}
}
A többi erőforrás hivatkozásához szükséges bibliográfiai adatokat lásd a fenti linkeken.