Differences
This shows you the differences between two versions of the page.
Next revision Both sides next revision | |||
user:zeman:ukoly:brilluv-tagger [2007/10/18 14:07] zeman vytvořeno |
user:zeman:ukoly:brilluv-tagger [2007/10/24 21:03] zeman Otázky. |
||
---|---|---|---|
Line 3: | Line 3: | ||
Stáhněte z internetu (např. z http:// | Stáhněte z internetu (např. z http:// | ||
- | Napište si svůj vlastní naivní "tagger", který každému slovu přiřadí nejpravděpodobnější značku. Porovnejte úspěšnost svého a Brillova taggeru; porovnejte také časovou a prostorovou náročnost obou programů (jak dlouho | + | Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce. Níže najdete otázky, na které byste při experimentech měli hledat odpověď; do prezentace však zahrňte i další zajímavosti, |
+ | |||
+ | Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a neměly by záviset na konkrétním rozmístění souborů na vašem disku. Samozřejmě budou muset vědět, kde máte vybalený | ||
+ | |||
+ | ===== Poznámky k architektuře ===== | ||
+ | |||
+ | Brillův software je napsán dílem v C, dílem v Perlu. Testován byl na Sun Sparc 10, takže doporučené prostředí je Unix, i když není zatím vyloučeno, že ho půjde přeložit i ve Windows. Vznikl už v roce 1994 takže na dnešním hardwaru by měl být rychlejší a nemusel by mít problémy s pamětí. Tehdy ale trénování na půl miliónu anglických slov trvalo několik dní. | ||
+ | |||
+ | ===== Otázky ===== | ||
+ | |||
+ | **Poznámka: | ||
+ | |||
+ | - Jaká je míra nejednoznačnosti trénovacích dat? Tj. kolik možných značek v průměru připadá na každý slovní výskyt? | ||
+ | - Jaké procento slovních výskytů je jednoznačné, | ||
+ | - Jaký je nejvyšší počet značek na slovní typ a které slovo a značky to jsou? | ||
+ | - Jaké je pokrytí testovacích dat trénovacími? | ||
+ | - Jaká je úspěšnost naivního taggeru, který každému slovu přiřadí nejpravděpodobnější značku? (Pro každé trénovací slovo si musíme zapamatovat vítěznou značku, neznámým slovům dáváme nejčastější značku vůbec.) | ||
+ | - Jak dlouho | ||
+ | - Jaké úspěšnosti tagger dosahuje na přiložených testovacích datech? Tj. pro jaké procento slov určil správnou | ||
+ | - Jaké jsou nejčastější druhy chyb naivního | ||
- | Zjistěte míru nejednoznačnosti trénovacích dat (kolik možných značek v průměru připadá na každý slovní tvar? jaké procento slov připouští jen jedinou značku? jaký je nejvyšší počet značek na slovo a které slovo a značky to jsou?). Zjistěte pokrytí testovacích dat trénovacími (jaké procento testovacích slov jsme aspoň jednou potkali v trénovacích datech?) |