Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:ukoly:brilluv-tagger [2007/10/18 14:07] zeman vytvořeno |
user:zeman:ukoly:brilluv-tagger [2007/10/24 22:04] zeman Data. |
||
---|---|---|---|
Line 3: | Line 3: | ||
Stáhněte z internetu (např. z http:// | Stáhněte z internetu (např. z http:// | ||
- | Napište si svůj vlastní naivní " | + | Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce. Níže najdete otázky, na které byste při experimentech měli hledat odpověď; do prezentace však zahrňte i další zajímavosti, |
- | Zjistěte míru nejednoznačnosti trénovacích dat (kolik možných značek v průměru připadá na každý slovní | + | Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a spíše platformově nezávislé - to se týká zejména těch, které přímo nevolají Brillův software. V případě potřeby ale můžete využít externí programy běžně dostupné v Linuxu, které nelze snadno nahradit příkazy Perlu (např. gzip). Skripty by neměly záviset na konkrétním rozmístění souborů na vašem disku. Samozřejmě budou muset vědět, kde máte vybalený tagger s příslušenstvím, |
+ | |||
+ | |||
+ | ===== Poznámky k architektuře ===== | ||
+ | |||
+ | Brillův software je napsán dílem v C, dílem v Perlu. Testován byl na Sun Sparc 10, takže doporučené prostředí je Unix, i když není zatím vyloučeno, že ho půjde přeložit i ve Windows. Vznikl už v roce 1994, takže na dnešním hardwaru by měl být rychlejší a nemusel by mít problémy s pamětí. Tehdy ale trénování na půl miliónu anglických slov trvalo několik dní. | ||
+ | |||
+ | ===== Otázky ===== | ||
+ | |||
+ | **Poznámka: | ||
+ | |||
+ | - Jaká je míra nejednoznačnosti trénovacích dat? Tj. kolik možných značek v průměru připadá na každý slovní | ||
+ | - Jaké procento | ||
+ | - Jaký je nejvyšší počet značek na slovní typ a které slovo a značky to jsou? | ||
+ | - Jaké je pokrytí testovacích dat trénovacími? Tj. jaké procento testovacích slov jsme alespoň jednou potkali v trénovacích datech? | ||
+ | - Jaká je úspěšnost naivního taggeru, který každému slovu přiřadí nejpravděpodobnější značku? (Pro každé trénovací slovo si musíme zapamatovat vítěznou značku, neznámým slovům dáváme nejčastější značku vůbec.) | ||
+ | - Jak dlouho trvá trénování Brillova taggeru na přiložených datech (a na jakém hardwaru)? | ||
+ | - Jaké úspěšnosti tagger dosahuje na přiložených testovacích datech? Tj. pro jaké procento slov určil správnou značku? | ||
+ | - Jaké jsou nejčastější druhy chyb naivního a Brillova taggeru? (Např. "25 % všech chyb byl případ, kdy správná je značka N4 (podstatné jméno ve 4. pádě), ale tagger přiřadil značku N1 (podstatné jméno v 1. pádě). Tato chyba se nejčastěji týkala slova " | ||
+ | |||
+ | ===== Skripty ===== | ||
+ | |||
+ | Následuje přehled některých skriptů, které byste měli vytvořit. Nejde o vyčerpávající seznam, výše navržené experimenty budou vyžadovat i další funkce. | ||
+ | |||
+ | * Jednoduchý trénovací skript, kterému se předají trénovací data a vypadne nějaký soubor, třeba zagzipovaný, | ||
+ | * Obdobně skript pro pouštění taggeru, předá se mu soubor vypadlý z trénovacího skriptu a text k označkování, | ||
+ | * Naivní trénovač a tagger, který se volá stejně jako výše popsané rozhraní na Brillův tagger, ale chová se zcela naivně (nejpravděpodobnější značka, viz výše). | ||
+ | * Skript, kterému se předá ručně označkovaný text (tzv. gold standard) a tentýž text označkovaný taggerem. Skript vypíše úspěšnost značkování taggeru (tj. procento správně označkovaných slov) a případný další rozbor chyb. | ||
+ | |||
+ | ===== Data ===== | ||
+ | |||
+ | ==== Čeština ==== | ||
+ | |||
+ | Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http:// | ||
+ | |||
+ | ==== Švédština ==== | ||
+ | |||
+ | Data pocházejí ze švédského korpusu Talbanken05, | ||
+ | |||
+ | ==== Dánština ==== | ||
+ | |||
+ | Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu. |