This is an old revision of the document!
Table of Contents
CzEng - Mining
Navod
svn --username $USER co https://svn.ms.mff.cuni.cz/svn/czeng/trunk/czeng10/mining/ czeng-mining
Ukoly
TODO
- zkustil zprovoznit u sebe celou pipelinu CzEngu az (vcetne) Alesova hrubeho filtrovani
- pridal “statistiky po ceste”, ktere maji za cil validovat data (nejde tolik o formalni validaci, k te dojde mimodek, jako spis o pocitani, jestli nekde cestou neztracime nejaka data kvuli technicke chybe)
http://www1.cuni.cz/~obo/textutils/
→ zwc je trosinku chytrejsi pocitadlo nez wc
Ondreje zajima co nejdrive ta prehledna tabulka, kolik dat z jakeho zdroje mame (a jak s tim zacvicily hrube filtry).
Inspirace, jak jsem pocital statistiky minule, je zde:
svn cat https://svn.ms.mff.cuni.cz/svn/czeng/trunk/devel/completion/Makefile
Konkretne jde o cile:
%.stat … ktery jsem (rucne) spoustel jak na nefiltrovane (tj.
.hali), tak na filtrovane (tj. .filtered; cili ty po
Alesove hrube filtraci)
%.freqerrs … ten po pouziti na filtrovane ukaze, jake chyby jsou
nejcetnejsi, tj. ze kvuli nim ztratime nejvice dat – a nekdy se
vyplati takove chyby radeji resit nez data zahodit.
- Dalsi navazujici ukol, nez na to zapomenu, bude ozivit v nove pipeline ty automaticke opravy pripadu 2-1 a 1-2 na 1-1. Ondrej pak dohleda, kde to byvalo.
- predelat checkouty na export - ale jasne odlisit
- prozatim neni priorita, protoze neni jiste, kde je to vsude natvrdo nastavene
- opravit zpracovani titulku podle ostatnich ukolu
DONE
- potrebne nastroje se automaticky stahnou + zkompiluji
- mining pipelina jde spustit
- pridana kontrola na existenci potrebnych dat
- pridana kontrola na existenci potrebnych nastroju