[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:brilluv-tagger [2007/10/24 16:59]
zeman Model kontextových pravidel.
user:zeman:brilluv-tagger [2007/11/11 08:57] (current)
zeman Trénování pravidel skončilo.
Line 20: Line 20:
  
 Dělení korpusu je náhodné, ale se snahou, aby obě části byly přibližně stejně velké. Vyšlo mi 34221 vět v první části a 34341 ve druhé. Vzhledem k tomu, že původní korpus měl kolem miliónu slov, každá část by měla mít kolem 500000 slov. Dělení korpusu je náhodné, ale se snahou, aby obě části byly přibližně stejně velké. Vyšlo mi 34221 vět v první části a 34341 ve druhé. Vzhledem k tomu, že původní korpus měl kolem miliónu slov, každá část by měla mít kolem 500000 slov.
 +
  
 ===== Model neznámých slov ===== ===== Model neznámých slov =====
Line 39: Line 40:
  
 <code perl>$THRESHOLD = 8;</code> <code perl>$THRESHOLD = 8;</code>
 +
 +Trénování běželo na clusteru 17 dní, ale možná by bylo rychlejší, kdybych změnil algoritmus na přiřazování počáteční značky, viz níže.
  
 **Upozornění:** Chtělo by to ještě změnit (na několika místech, viz README) Erikův algoritmus na přiřazování počáteční značky. Eric zatím přiřazuje značky Penn Treebanku (začíná-li slovo velkým písmenem, je to vlastní jméno (''NNP''), jinak obyčejné podstatné jméno (''NN'')), které na datech z PDT nemohou uspět. Chtělo by to např. veškeré interpunkci dát ''Z:-------------'', všem číslům ''C=-------------'' a všemu ostatnímu třeba ''NNFS1-----A----''. **Upozornění:** Chtělo by to ještě změnit (na několika místech, viz README) Erikův algoritmus na přiřazování počáteční značky. Eric zatím přiřazuje značky Penn Treebanku (začíná-li slovo velkým písmenem, je to vlastní jméno (''NNP''), jinak obyčejné podstatné jméno (''NN'')), které na datech z PDT nemohou uspět. Chtělo by to např. veškeré interpunkci dát ''Z:-------------'', všem číslům ''C=-------------'' a všemu ostatnímu třeba ''NNFS1-----A----''.

[ Back to the navigation ] [ Back to the content ]