Facebook Instagram Twitter RSS Feed PodBean Back to top on side

Aktuality

Ilustračná snímka

Vektorové jazykové modely sa rozrástli o modely ukrajinčiny

17. 10. 2022 | videné 438-krát

Vektorové jazykové modely (word embeddings) poskytované Jazykovedným ústavom Ľ. Štúra, v. v. i., sa rozrástli o modely ukrajinčiny. Modely sú trénované na novom veľkom webovom korpuse ukrajinského jazyka Araneum Ucrainicum, ktorý  obsahuje štyri miliardy slov.

Rodina webových korpusov ARANEA vzniká v spolupráci JÚĽŠ SAV, v. v. i., a UNESCO Katedry plurilingválnej a multikultúrnej komunikácie (Univerzita Komenského) a poskytuje dáta pre vyše dve desiatky prevažne európskych jazykov, vrátane najväčšieho dostupného korpusu slovenčiny.

Vektorové modely priraďujú slovám vektory v mnohorozmernom priestore; tieto vektory odrážajú významové vzťahy medzi slovami. Napríklad na obrázku vidíme významový prenos od slova Ужгород (Užhorod), ak od neho оdpočítame vektor zodpovedajúci významu slova Україна (Ukrajina) a pripočítame vektor zodpovedajúci významu slova Словаччина (Slovensko; čiže získame slovenský ekvivalent slova Ужгород v povedomí „priemerného ukrajinského hovoriaceho“ – čomu je najbližšie slovo Кошице (Košice)). Takéto vektorové modely sú používané v širokej oblasti aplikácií počítačového spracovania jazyka, ako aj pri ďalšom jazykovednom výskume.

Webové rozhranie k modelom je dostupné TU

Ďalšie informácie a možnosť stiahnutia modelov sú na tomto linku

Viac informácií aj tu.

 

Text a foto: Radovan Garabík, Jazykovedný ústav Ľ. Štúra SAV, v. v. i.

Ilustračné foto: pixabay.com/Gerd Altmann

Súvisiace články