Porovnateľné korpusy textov zákonov v siedmich jazykoch
Jazykovedný ústav Ľ. Štúra Slovenskej akadémie vied sprístupnil korpus textov zákonov Slovenskej republiky ako súčasť rodiny porovnateľných korpusov textov zákonov v jazykoch okolitých krajín.
Korpus vznikol v spolupráci v rámci medzinárodného projektu MARCELL, ktorého partnermi sú:
● Jazykovedný ústav, Maďarsko,
● Ústav bulharského jazyka prof. Ľubomira Andrejčina, Bulharsko,
● Univerzita v Záhrebe, Fakulta humanitných a sociálnych vied, Chorvátsko,
● Ústav informatiky, Poľská akadémia vied, Poľsko,
● Výskumný ústav umelej inteligencie, Rumunská akadémia, Rumunsko,
● Jazykovedný ústav Ľ. Štúra Slovenskej akadémie vied, Slovensko,
● Ústav Jožefa Stefana, Slovinsko.
Korpusy pre jednotlivé jazyky sú jednotne spracované nástrojmi na automatickú analýzu a počítačové spracovanie jazyka – lematizované, morfologicky označkované, syntakticky analyzované, obsahujú informácie o pomenovaných entitách a sú terminologicky označené IATE termínmi a EuroVoc deskriptormi. Pri tvorbe slovenského korpusu sa zúročili dlhoročné skúsenosti a výskum v oblasti počítačového spracovania prirodzeného jazyka – slovenčiny, ktorému sa Jazykovedný ústav Ľ. Štúra SAV venuje ako špičkové pracovisko v tejto oblasti na Slovensku.
Korpus je dostupný pre širokú odbornú verejnosť a hoci jeho pôvodným zameraním je poskytovať dáta na zlepšenie strojového prekladu, nájde využitie aj v širších oblastiach všeobecnej, korpusovej a komparatívnej lingvistiky a terminológie.
Projekt je spolufinancovaný Európskou úniou prostredníctvom Nástroja na prepájanie Európy.
Gabriela Múcsková, JÚĽŠ SAV
Ilustračné foto: archív SAV