Facebook Instagram Twitter RSS Feed Back to top

Aktuality

Titulný obrázok

Webové korpusy Aranea

28. 12. 2020 | zhliadnuté 167-krát

Aranea (araneum, pl. aranea, je latinské slovo označujúce pavučinu, čiže „web“) je spoločný projekt Jazykovedného ústavu Ľ. Štúra SAV a UNESCO Katedry plurilingválnej a multikultúrnej komunikácie UK v Bratislave zameraný na vytvorenie rodiny textových korpusov pozostávajúcich z textov z internetu.

Keďže texty pochádzajú približne z rovnakého obdobia, spracúvajú sa a anotujú pomocou štandardizovanej technológie, majú rovnakú veľkosť, dajú sa do značnej miery považovať za porovnateľné („comparable“), t. j. vhodné okrem použitia v rámci jedného jazyka aj na viacjazyčné aplikácie, napr. na komparatívny výskum a v prekladateľstve. Všetky korpusy sú bezplatne dostupné na portáli Aranea pomocou webového rozhrania korpusového manažéra NoSketch Engine

V súčasnosti (december 2020) pokrýva projekt Aranea 22 jazykov, pričom pre niektoré jazyky boli navyše vytvorené aj teritoriálne varianty, napr. pre nemeckú, rakúsku a švajčiarsku nemčinu, francúzsku, kanadskú, belgickú a africkú francúzštinu a pod. Korpusy majú „jazykovo neutrálne“ latinské názvy označujúce jazyk, variant a veľkosť korpusu. Základná veľkosť korpusu je pri väčšine jazykov 1 miliarda slovných tvarov (je označená ako Maius – sú však jazyky, kde sa túto veľkosť nepodarilo dosiahnuť) a z každého korpusu je zároveň vytvorená 10-percentná vzorka (s názvom Minus) vhodná na pedagogické účely. Pre niektoré jazyky sme sa pokúsili vytvoriť aj väčšie korpusy kategórie Maximum, čiže „koľko sa podarí“. Veľkosť takýchto korpusov je v prípade „malých“ jazykov daná najmä množstvom textového materiálu na internete, takže slovenský korpus Araneum Slovacum Maximum má 4 miliardy slovných tvarov a český korpus Araneum Bohemicum Maximum 7 miliárd. Pri „veľkých“ jazykoch je veľkosť príslušného korpusu ohraničená kapacitou našej výpočtovej infraštruktúry (najmä veľkosťou operačnej pamäte a diskového poľa na serveri). Najväčší korpus kategórie Maximum je ruský Araneum Russicum Maximum s veľkosťou takmer 20 miliárd slovných tvarov.

Korpusy rodiny Aranea sa používajú na rozličné účely, v Jazykovednom ústave Ľ. Štúra SAV najmä ako doplnkový zdroj (popri Slovenskom národnom korpuse) jazykových dát pri tvorbe viaczväzkového Slovníka súčasného slovenského jazyka, ako aj v rámci mnohorakého jazykovedného výskumu. V pedagogickom procese sa korpusy Aranea využívajú pri výučbe jazykových a jazykovedných disciplín a prekladateľstva na viacerých slovenských aj zahraničných univerzitách. Systémy evidujúce citácie svedčia o používaní korpusov Aranea pri tvorbe bakalárskych a diplomových prác a doktorských dizertácií. Evidujeme tiež početné citácie vo vedeckých publikáciách v zborníkoch z odborných podujatí a v periodikách.

V poslednom období boli zdrojové dáta korpusov Aranea úspešne použité v oblasti počítačového spracovania jazyka, napríklad na trénovanie vektorových sémantických modelov („word embeddings“). 

Text: Jazykovedný ústav Ľ. Štúra SAV