Differences

This shows you the differences between two versions of the page.

--- user:zeman:ukoly:brilluv-tagger [2007/10/18 14:07]
zeman vytvořeno
+++ user:zeman:ukoly:brilluv-tagger [2007/10/24 21:03]
zeman Otázky.
@@ Line 3: / Line 3: @@
 Stáhněte z internetu (např. z http://www.cs.jhu.edu/~brill/RBT1_14.tar.Z) tagger Erika Brilla, nainstalujte ho a rozchoďte ho. Dostanete k dispozici anotovaný korpus, který si rozdělíte na trénovací a testovací data. Natrénujte tagger na trénovacích datech, označkujte testovací data a zjistěte, jaké úspěšnosti tagger dosahuje.
-Napište si svůj vlastní naivní "tagger", který každému slovu přiřadí nejpravděpodobnější značku. Porovnejte úspěšnost svého a Brillova taggeru; porovnejte také časovou a prostorovou náročnost obou programů (jak dlouho trvalo trénování? jak dlouho značkování? kolik místa na disku zabírá natrénovaný model?) Zjistěte 5 nejčastějších druhů chyb vašeho a Brillova taggeru. (Např. "25 % všech chyb byl případ, kdy správná je značka N4 (podstatné jméno ve 4. pádě), ale tagger přiřadil značku N1 (podstatné jméno v 1. pádě). Tato chyba se nejčastěji týkala slova "předpis".")
+Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce. Níže najdete otázky, na které byste při experimentech měli hledat odpověď; do prezentace však zahrňte i další zajímavosti, na které při pokusech narazíte, ať už se týkají technických aspektů práce s taggerem, zajímavostí v datech, se kterými jste pracovali, nebo námětů, jak zlepšit úspěšnost taggeru.
+Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a neměly by záviset na konkrétním rozmístění souborů na vašem disku. Samozřejmě budou muset vědět, kde máte vybalený tagger s příslušenstvím, k tomu použijte proměnnou prostředí ''BRILL''. (V Perlu dostupná jako ''$ENV{BRILL}''.) Dokumentace ke skriptům stačí uživatelská, tj. seznam skriptů, ke každému způsob volání a jednou dvěma větami popsáno, k čemu slouží.
+===== Poznámky k architektuře =====
+Brillův software je napsán dílem v C, dílem v Perlu. Testován byl na Sun Sparc 10, takže doporučené prostředí je Unix, i když není zatím vyloučeno, že ho půjde přeložit i ve Windows. Vznikl už v roce 1994 takže na dnešním hardwaru by měl být rychlejší a nemusel by mít problémy s pamětí. Tehdy ale trénování na půl miliónu anglických slov trvalo několik dní.
+===== Otázky =====
+**Poznámka:** Mluvíme-li o počtu slov, máme na mysli buď //slovní výskyty//, nebo //slovní typy//. Velikost korpusu udává počet slovních výskytů. Počet typů udává velikost slovníku, který můžeme z korpusu vytáhnout. Jeden typ může mít několik výskytů.
+  - Jaká je míra nejednoznačnosti trénovacích dat? Tj. kolik možných značek v průměru připadá na každý slovní výskyt?
+  - Jaké procento slovních výskytů je jednoznačné, tj. z trénovacích dat pro ně známe právě jednu značku?
+  - Jaký je nejvyšší počet značek na slovní typ a které slovo a značky to jsou?
+  - Jaké je pokrytí testovacích dat trénovacími? Tj. jaké procento testovacích slov jsme alespoň jednou potkali v trénovacích datech? Zajímavé jak pro počet testovacích výskytů, tak typů.
+  - Jaká je úspěšnost naivního taggeru, který každému slovu přiřadí nejpravděpodobnější značku? (Pro každé trénovací slovo si musíme zapamatovat vítěznou značku, neznámým slovům dáváme nejčastější značku vůbec.)
+  - Jak dlouho trvá trénování Brillova taggeru na přiložených datech (a na jakém hardwaru)?
+  - Jaké úspěšnosti tagger dosahuje na přiložených testovacích datech? Tj. pro jaké procento slov určil správnou značku?
+  - Jaké jsou nejčastější druhy chyb naivního a Brillova taggeru? (Např. "25 % všech chyb byl případ, kdy správná je značka N4 (podstatné jméno ve 4. pádě), ale tagger přiřadil značku N1 (podstatné jméno v 1. pádě). Tato chyba se nejčastěji týkala slova "předpis".")
-Zjistěte míru nejednoznačnosti trénovacích dat (kolik možných značek v průměru připadá na každý slovní tvar? jaké procento slov připouští jen jedinou značku? jaký je nejvyšší počet značek na slovo a které slovo a značky to jsou?). Zjistěte pokrytí testovacích dat trénovacími (jaké procento testovacích slov jsme aspoň jednou potkali v trénovacích datech?)

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences