Prvé miesto v rozpoznávaní entít v texte nám ušlo o menej než 1%
Tím z Ústavu informatiky SAV sa zúčastnil medzinárodnej súťaže #MSM2013 Concept Extraction Challenge[1], ktorá sa konala v rámci najprestížnejšej vedeckej konferencie zameranej na výskum Webu, World Wide Web - WWW 2013[2] v brazílskom Rio de Janiero.
Cieľom súťaže bolo rozpoznať entity ako sú mená osôb, názvy organizácií, názvy lokalít a rôzne iné názvy v textoch krátkych správ (mikroblogy, tweets).
Ústav informatiky SAV pripravil metódu Annotowatch („Anotovač“) na rozpoznanie entít v texte za pomoci existujúcich riešení, ktoré boli skombinované pomocou strojového učenia.
Organizátori súťaže najskôr vyhodnotili zaslané riešenia a vybrali 6 najlepších zo 17 zaslaných riešení z celého sveta. Výsledky súťaže boli vyhlásené na konferencii 13. mája 2013, kde tím z Ústavu informatiky SAV získal v celkovom hodnotení druhé miesto.
Celkové poradie bolo určené na základe F1 metriky, čo je harmonický priemer presnosti (precision) a úplnosti (recall). Presnosť znamená percentuálny podiel správnych výsledkov vo vrátených výsledkoch a úplnosť zasa percentuálny podiel správne vrátených výsledkov vo všetkých možných.
Tím ÚI SAV v zložení Štefan Dlugolinský, Peter Krammer, Marek Ciglan a Michal Laclavík na konferencii zastupoval doktorand Štefan Dlugolinský.
V súčasnosti má tím pripravenú vylepšenú metódu, ktorá dosahuje o 5% lepšie výsledky ako predchádzajúca verzia použitá v súťaži.
Viac informácií na: http://ikt.ui.sav.sk/index.php?n=Main.IEChallenge2013