====== CzEng - Mining ====== * [[.mining:dokumentacni-maily]] * [[.mining:jak-na-trtok]] ===== Navod ===== svn --username $USER co https://svn.ms.mff.cuni.cz/svn/czeng/trunk/czeng10/ ===== Pouziti ===== cd mining; make check make get make prepare # copy pastovani tasku make clean-all # copy pastovani tasku make train.parallel make segment.parallel make segmented.hunalign.gz ===== Ukoly ===== ==== TODO ==== * zkustil zprovoznit u sebe celou pipelinu CzEngu az (vcetne) Alesova hrubeho filtrovani * pridal "statistiky po ceste", ktere maji za cil validovat data (nejde tolik o formalni validaci, k te dojde mimodek, jako spis o pocitani, jestli nekde cestou neztracime nejaka data kvuli technicke chybe) * '' http://www1.cuni.cz/~obo/textutils/ -> zwc je trosinku chytrejsi pocitadlo nez wc Ondreje zajima co nejdrive ta prehledna tabulka, kolik dat z jakeho zdroje mame (a jak s tim zacvicily hrube filtry). Inspirace, jak jsem pocital statistiky minule, je zde: svn cat https://svn.ms.mff.cuni.cz/svn/czeng/trunk/devel/completion/Makefile Konkretne jde o cile: %.stat ... ktery jsem (rucne) spoustel jak na nefiltrovane (tj. .hali), tak na filtrovane (tj. .filtered; cili ty po Alesove hrube filtraci) %.freqerrs ... ten po pouziti na filtrovane ukaze, jake chyby jsou nejcetnejsi, tj. ze kvuli nim ztratime nejvice dat -- a nekdy se vyplati takove chyby radeji resit nez data zahodit. '' * Dalsi navazujici ukol, nez na to zapomenu, bude ozivit v nove pipeline ty automaticke opravy pripadu 2-1 a 1-2 na 1-1. Ondrej pak dohleda, kde to byvalo. * predelat checkouty na export - ale jasne odlisit * prozatim neni priorita, protoze neni jiste, kde je to vsude natvrdo nastavene * opravit zpracovani titulku podle ostatnich ukolu * czeng09 - clean-navajo, clean-project_syndicate, clean-emea03 - trvaji hodne dlouho ==== DONE ==== * potrebne nastroje se automaticky stahnou + zkompiluji * mining pipelina jde spustit * pridana kontrola na existenci potrebnych dat * pridana kontrola na existenci potrebnych nastroju ===== Veci, co se mi nelibi ===== * readers-digest-2 vs rd2 - podle mne by se to melo jmenovat stejne