Differences

This shows you the differences between two versions of the page.

--- user:zeman:brilluv-tagger [2007/10/24 16:46]
zeman Oprava.
+++ user:zeman:brilluv-tagger [2007/11/11 08:57] (current)
zeman Trénování pravidel skončilo.
@@ Line 20: / Line 20: @@
 Dělení korpusu je náhodné, ale se snahou, aby obě části byly přibližně stejně velké. Vyšlo mi 34221 vět v první části a 34341 ve druhé. Vzhledem k tomu, že původní korpus měl kolem miliónu slov, každá část by měla mít kolem 500000 slov.
 ===== Model neznámých slov =====
@@ Line 39: / Line 40: @@
 <code perl>$THRESHOLD = 8;</code>
+Trénování běželo na clusteru 17 dní, ale možná by bylo rychlejší, kdybych změnil algoritmus na přiřazování počáteční značky, viz níže.
 **Upozornění:** Chtělo by to ještě změnit (na několika místech, viz README) Erikův algoritmus na přiřazování počáteční značky. Eric zatím přiřazuje značky Penn Treebanku (začíná-li slovo velkým písmenem, je to vlastní jméno (''NNP''), jinak obyčejné podstatné jméno (''NN'')), které na datech z PDT nemohou uspět. Chtělo by to např. veškeré interpunkci dát ''Z:-------------'', všem číslům ''C=-------------'' a všemu ostatnímu třeba ''NNFS1-----A----''.
@@ Line 44: / Line 47: @@
 <code>perl ../Learner_Code/unknown-lexical-learn.prl pdt.bigwordlist pdt.smallwordtaglist pdt.bigbigramlist \
 pdt.lexruleoutfile</code>
 ===== Model kontextových pravidel =====
-<code>cat pdt-train-1.brill | perl ../Utilities/make-restricted-lexicon.prl > pdt.training.lexicon</code>
+Vytvoříme dva slovníky značek ke slovům. První bude vyroben z poloviny trénovacích dat a bude se používat během trénování pravidel. Druhý bude vyroben ze všech trénovacích dat a bude se používat při ostrém nasazení již natrénovaného taggeru.
+<code>cat pdt-train-1.brill | perl ../Utilities/make-restricted-lexicon.prl > pdt.training.lexicon
+cat pdt-train-*.brill | perl ../Utilities/make-restricted-lexicon.prl > pdt.final.lexicon</code>
+Odznačkujeme si druhou část korpusu a zkusíme ji označkovat počátečním taggerem, to budeme potřebovat při trénování pravidel. Tagger nemůžeme spustit, dokud se nenatrénuje model neznámých slov.
+<code>cat pdt-train-2.brill | perl ../Utilities/tagged-to-untagged.prl > pdt-train-2.tok
+tagger pdt.training.lexicon pdt-train-2.tok pdt.bigbigramlist pdt.lexruleoutfile /dev/null -w bigwordlist -i pdt.dummy-tagged-corpus > /dev/null</code>
+Naučíme se kontextová pravidla.
+<code>contextual-rule-learn pdt-train-2.brill pdt.dummy-tagged-corpus pdt.context-rulefile pdt.training.lexicon</code>

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences