[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:majlis:czeng:mining [2011/09/20 10:29]
majlis
user:majlis:czeng:mining [2011/09/30 16:11] (current)
majlis
Line 5: Line 5:
  
 ===== Navod ===== ===== Navod =====
-   svn --username $USER co https://svn.ms.mff.cuni.cz/svn/czeng/trunk/czeng10/mining/ czeng-mining+   svn --username $USER co https://svn.ms.mff.cuni.cz/svn/czeng/trunk/czeng10/
  
 +===== Pouziti =====
 +  cd mining;
 +  make check
 +  make get
 +  make prepare
 +  # copy pastovani tasku
 +  make clean-all
 +  # copy pastovani tasku
 +  make train.parallel
 +  make segment.parallel
 +  make segmented.hunalign.gz
 +
 +===== Ukoly =====
 +
 +==== TODO ====
 +  * zkustil zprovoznit u sebe celou pipelinu CzEngu az (vcetne) Alesova hrubeho filtrovani
 +  * pridal "statistiky po ceste", ktere maji za cil validovat data (nejde tolik o formalni validaci, k te dojde mimodek, jako spis o pocitani, jestli nekde cestou neztracime nejaka data kvuli technicke chybe)
 +    * ''  
 +http://www1.cuni.cz/~obo/textutils/
 + -> zwc je trosinku chytrejsi pocitadlo nez wc 
 +Ondreje zajima co nejdrive ta prehledna tabulka, kolik dat z jakeho zdroje mame (a jak s tim zacvicily hrube filtry).
 +
 +Inspirace, jak jsem pocital statistiky minule, je zde:
 +
 +svn cat https://svn.ms.mff.cuni.cz/svn/czeng/trunk/devel/completion/Makefile
 +
 +Konkretne jde o cile:
 +%.stat  ... ktery jsem (rucne) spoustel jak na nefiltrovane (tj.
 +           .hali), tak na filtrovane (tj. .filtered; cili ty po
 +           Alesove hrube filtraci)
 +%.freqerrs ... ten po pouziti na filtrovane ukaze, jake chyby jsou
 +  nejcetnejsi, tj. ze kvuli nim ztratime nejvice dat -- a nekdy se
 +  vyplati takove chyby radeji resit nez data zahodit.
 +''
 +  * Dalsi navazujici ukol, nez na to zapomenu, bude ozivit v nove pipeline ty automaticke opravy pripadu 2-1 a 1-2 na 1-1. Ondrej pak dohleda, kde to byvalo.
 +  * predelat checkouty na export - ale jasne odlisit
 +    * prozatim neni priorita, protoze neni jiste, kde je to vsude natvrdo nastavene
 +  * opravit zpracovani titulku podle ostatnich ukolu
 +  * czeng09 - clean-navajo, clean-project_syndicate, clean-emea03 - trvaji hodne dlouho
 +
 +==== DONE ====
 +  * potrebne nastroje se automaticky stahnou + zkompiluji
 +  * mining pipelina jde spustit
 +  * pridana kontrola na existenci potrebnych dat
 +  * pridana kontrola na existenci potrebnych nastroju
 +
 +===== Veci, co se mi nelibi =====
 +
 +  * readers-digest-2 vs rd2 - podle mne by se to melo jmenovat stejne
  

[ Back to the navigation ] [ Back to the content ]