Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
user:zeman:brilluv-tagger [2007/10/24 16:46] zeman Oprava. |
user:zeman:brilluv-tagger [2007/11/11 08:57] (current) zeman Trénování pravidel skončilo. |
||
|---|---|---|---|
| Line 20: | Line 20: | ||
| Dělení korpusu je náhodné, ale se snahou, aby obě části byly přibližně stejně velké. Vyšlo mi 34221 vět v první části a 34341 ve druhé. Vzhledem k tomu, že původní korpus měl kolem miliónu slov, každá část by měla mít kolem 500000 slov. | Dělení korpusu je náhodné, ale se snahou, aby obě části byly přibližně stejně velké. Vyšlo mi 34221 vět v první části a 34341 ve druhé. Vzhledem k tomu, že původní korpus měl kolem miliónu slov, každá část by měla mít kolem 500000 slov. | ||
| + | |||
| ===== Model neznámých slov ===== | ===== Model neznámých slov ===== | ||
| Line 39: | Line 40: | ||
| <code perl> | <code perl> | ||
| + | |||
| + | Trénování běželo na clusteru 17 dní, ale možná by bylo rychlejší, | ||
| **Upozornění: | **Upozornění: | ||
| Line 44: | Line 47: | ||
| < | < | ||
| 300 pdt.lexruleoutfile</ | 300 pdt.lexruleoutfile</ | ||
| + | |||
| ===== Model kontextových pravidel ===== | ===== Model kontextových pravidel ===== | ||
| - | < | + | Vytvoříme dva slovníky značek ke slovům. První bude vyroben z poloviny trénovacích dat a bude se používat během trénování pravidel. Druhý bude vyroben ze všech trénovacích dat a bude se používat při ostrém nasazení již natrénovaného taggeru. |
| + | |||
| + | < | ||
| + | cat pdt-train-*.brill | perl ../ | ||
| + | |||
| + | Odznačkujeme si druhou část korpusu a zkusíme ji označkovat počátečním taggerem, to budeme potřebovat při trénování pravidel. Tagger nemůžeme spustit, dokud se nenatrénuje model neznámých slov. | ||
| + | |||
| + | < | ||
| + | tagger pdt.training.lexicon pdt-train-2.tok pdt.bigbigramlist pdt.lexruleoutfile /dev/null -w bigwordlist -i pdt.dummy-tagged-corpus > / | ||
| + | |||
| + | Naučíme se kontextová pravidla. | ||
| + | |||
| + | < | ||
