Differences

This shows you the differences between two versions of the page.

--- user:zeman:ukoly:brilluv-tagger [2007/10/24 22:28]
zeman Formát dat.
+++ user:zeman:ukoly:brilluv-tagger [2007/10/24 22:33]
zeman První nástřel.
@@ Line 11: / Line 11: @@
 Brillův software je napsán dílem v C, dílem v Perlu. Testován byl na Sun Sparc 10, takže doporučené prostředí je Unix, i když není zatím vyloučeno, že ho půjde přeložit i ve Windows. Vznikl už v roce 1994, takže na dnešním hardwaru by měl být rychlejší a nemusel by mít problémy s pamětí. Tehdy ale trénování na půl miliónu anglických slov trvalo několik dní.
@@ Line 26: / Line 27: @@
   - Jaké jsou nejčastější druhy chyb naivního a Brillova taggeru? (Např. "25 % všech chyb byl případ, kdy správná je značka N4 (podstatné jméno ve 4. pádě), ale tagger přiřadil značku N1 (podstatné jméno v 1. pádě). Tato chyba se nejčastěji týkala slova "předpis".")
   - Změní se výsledek značkování, když Brillovi nepředhodíme text v UTF-8, ale převedeme ho nejdřív do nějakého osmibitového kódování?
+  - Brillův tagger funguje tak, že nejdřív udělá pro každé slovo jakýsi první nástřel značky a pak se učí pravidla, jak značku nahradit lepší značkou. Defaultní první nástřel používá značky běžné v anglickém Penn Treebanku, tj. pro jiné korpusy a jazyky tyto značky musí být špatně. Změní se úspěšnost, když algoritmus prvního nástřelu upravíte pro svou sadu značek? Nebo se změní jen čas potřebný ke konvergenci algoritmu?
 ===== Skripty =====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences