[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:majlis:czeng:mining [2011/09/19 09:23]
majlis
user:majlis:czeng:mining [2011/09/22 16:18]
majlis Pridan navod na mining.
Line 2: Line 2:
  
   * [[.mining:dokumentacni-maily]]   * [[.mining:dokumentacni-maily]]
 +  * [[.mining:jak-na-trtok]]
 +
 +===== Navod =====
 +   svn --username $USER co https://svn.ms.mff.cuni.cz/svn/czeng/trunk/czeng10/
 +
 +===== Pouziti =====
 +  cd mining;
 +  make check
 +  make get
 +  make prepare
 +  # copy pastovani tasku
 +  make clean-all
 +  # copy pastovani tasku
 +  make train.parallel
 +  make segment.parallel
 +  make segmented.hunalign.gz
 +
 +===== Ukoly =====
 +
 +==== TODO ====
 +  * zkustil zprovoznit u sebe celou pipelinu CzEngu az (vcetne) Alesova hrubeho filtrovani
 +  * pridal "statistiky po ceste", ktere maji za cil validovat data (nejde tolik o formalni validaci, k te dojde mimodek, jako spis o pocitani, jestli nekde cestou neztracime nejaka data kvuli technicke chybe)
 +    * ''  
 +http://www1.cuni.cz/~obo/textutils/
 + -> zwc je trosinku chytrejsi pocitadlo nez wc 
 +Ondreje zajima co nejdrive ta prehledna tabulka, kolik dat z jakeho zdroje mame (a jak s tim zacvicily hrube filtry).
 +
 +Inspirace, jak jsem pocital statistiky minule, je zde:
 +
 +svn cat https://svn.ms.mff.cuni.cz/svn/czeng/trunk/devel/completion/Makefile
 +
 +Konkretne jde o cile:
 +%.stat  ... ktery jsem (rucne) spoustel jak na nefiltrovane (tj.
 +           .hali), tak na filtrovane (tj. .filtered; cili ty po
 +           Alesove hrube filtraci)
 +%.freqerrs ... ten po pouziti na filtrovane ukaze, jake chyby jsou
 +  nejcetnejsi, tj. ze kvuli nim ztratime nejvice dat -- a nekdy se
 +  vyplati takove chyby radeji resit nez data zahodit.
 +''
 +  * Dalsi navazujici ukol, nez na to zapomenu, bude ozivit v nove pipeline ty automaticke opravy pripadu 2-1 a 1-2 na 1-1. Ondrej pak dohleda, kde to byvalo.
 +  * predelat checkouty na export - ale jasne odlisit
 +    * prozatim neni priorita, protoze neni jiste, kde je to vsude natvrdo nastavene
 +  * opravit zpracovani titulku podle ostatnich ukolu
 +  * czeng09 - clean-navajo, clean-project_syndicate, clean-emea03 - trvaji hodne dlouho
 +
 +==== DONE ====
 +  * potrebne nastroje se automaticky stahnou + zkompiluji
 +  * mining pipelina jde spustit
 +  * pridana kontrola na existenci potrebnych dat
 +  * pridana kontrola na existenci potrebnych nastroju
 +
  

[ Back to the navigation ] [ Back to the content ]