[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
user:majlis:czeng:mining [2011/09/19 09:21]
majlis vytvořeno
user:majlis:czeng:mining [2011/09/30 16:11] (current)
majlis
Line 1: Line 1:
 ====== CzEng - Mining ====== ====== CzEng - Mining ======
  
-  * [[.mining:dokumentacni-mail]]+  * [[.mining:dokumentacni-maily]] 
 +  * [[.mining:jak-na-trtok]] 
 + 
 +===== Navod ===== 
 +   svn --username $USER co https://svn.ms.mff.cuni.cz/svn/czeng/trunk/czeng10/ 
 + 
 +===== Pouziti ===== 
 +  cd mining; 
 +  make check 
 +  make get 
 +  make prepare 
 +  # copy pastovani tasku 
 +  make clean-all 
 +  # copy pastovani tasku 
 +  make train.parallel 
 +  make segment.parallel 
 +  make segmented.hunalign.gz 
 + 
 +===== Ukoly ===== 
 + 
 +==== TODO ==== 
 +  * zkustil zprovoznit u sebe celou pipelinu CzEngu az (vcetne) Alesova hrubeho filtrovani 
 +  * pridal "statistiky po ceste", ktere maji za cil validovat data (nejde tolik o formalni validaci, k te dojde mimodek, jako spis o pocitani, jestli nekde cestou neztracime nejaka data kvuli technicke chybe) 
 +    * ''   
 +http://www1.cuni.cz/~obo/textutils/ 
 + -> zwc je trosinku chytrejsi pocitadlo nez wc  
 +Ondreje zajima co nejdrive ta prehledna tabulka, kolik dat z jakeho zdroje mame (a jak s tim zacvicily hrube filtry). 
 + 
 +Inspirace, jak jsem pocital statistiky minule, je zde: 
 + 
 +svn cat https://svn.ms.mff.cuni.cz/svn/czeng/trunk/devel/completion/Makefile 
 + 
 +Konkretne jde o cile: 
 +%.stat  ... ktery jsem (rucne) spoustel jak na nefiltrovane (tj. 
 +           .hali), tak na filtrovane (tj. .filtered; cili ty po 
 +           Alesove hrube filtraci) 
 +%.freqerrs ... ten po pouziti na filtrovane ukaze, jake chyby jsou 
 +  nejcetnejsi, tj. ze kvuli nim ztratime nejvice dat -- a nekdy se 
 +  vyplati takove chyby radeji resit nez data zahodit. 
 +'' 
 +  * Dalsi navazujici ukol, nez na to zapomenu, bude ozivit v nove pipeline ty automaticke opravy pripadu 2-1 a 1-2 na 1-1. Ondrej pak dohleda, kde to byvalo. 
 +  * predelat checkouty na export - ale jasne odlisit 
 +    * prozatim neni priorita, protoze neni jiste, kde je to vsude natvrdo nastavene 
 +  * opravit zpracovani titulku podle ostatnich ukolu 
 +  * czeng09 - clean-navajo, clean-project_syndicate, clean-emea03 - trvaji hodne dlouho 
 + 
 +==== DONE ==== 
 +  * potrebne nastroje se automaticky stahnou + zkompiluji 
 +  * mining pipelina jde spustit 
 +  * pridana kontrola na existenci potrebnych dat 
 +  * pridana kontrola na existenci potrebnych nastroju 
 + 
 +===== Veci, co se mi nelibi ===== 
 + 
 +  * readers-digest-2 vs rd2 - podle mne by se to melo jmenovat stejne
  

[ Back to the navigation ] [ Back to the content ]