Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2013/04/15 09:43] zeman S Ondřejem dořešeno. Vyhrál :-) |
user:zeman:wmt [2013/04/15 11:40] zeman Martinův postup zpracování velkých korpusů Treexem. |
||
---|---|---|---|
Line 8: | Line 8: | ||
* Znova označkovat anglický Gigaword, tentokrát Featuramou. | * Znova označkovat anglický Gigaword, tentokrát Featuramou. | ||
+ | * Označkováno už je, dva dílčí dokumenty se musely značkovat dodatečně. Nyní (pondělí 15.4.2013) běží slévání výstupu. | ||
+ | * Pokračovat v práci na gigafren. Překladový model je natrénovaný, | ||
* Dokončit pokusy s korpusy un.es-en a un.fr-en. Běží merty, pak translate a evaluator. Pak kombinace un s jinými korpusy (newseuro a newsall). | * Dokončit pokusy s korpusy un.es-en a un.fr-en. Běží merty, pak translate a evaluator. Pak kombinace un s jinými korpusy (newseuro a newsall). | ||
* Zkontrolovat data pro rok 2013. | * Zkontrolovat data pro rok 2013. | ||
Line 190: | Line 192: | ||
Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | ||
+ | ===== Jak zpracovat obří korpus Treexem, třeba označkovat Gigaword? ===== | ||
+ | |||
+ | Dosud jsem používal obyčejné treex -p, kde se přesměrovává standardní výstup do nějakého souboru. Pro velké korpusy, které se zpracovávají několik dní na půlce clusteru, tohle není ten nejvhodnější způsob. Vždy je pravděpodobné, | ||
+ | |||
+ | Martin preferuje jiný způsob. Tisíce vstupních souborů leží v nějaké adresářové struktuře, někdy i vícepatrové, | ||
+ | |||
+ | Martinův postup lze vykoukat z '' |