zkustil zprovoznit u sebe celou pipelinu CzEngu az (vcetne) Alesova hrubeho filtrovani
pridal “statistiky po ceste”, ktere maji za cil validovat data (nejde tolik o formalni validaci, k te dojde mimodek, jako spis o pocitani, jestli nekde cestou neztracime nejaka data kvuli technicke chybe)
http://www1.cuni.cz/~obo/textutils/
→ zwc je trosinku chytrejsi pocitadlo nez wc
Ondreje zajima co nejdrive ta prehledna tabulka, kolik dat z jakeho zdroje mame (a jak s tim zacvicily hrube filtry).
Inspirace, jak jsem pocital statistiky minule, je zde:
svn cat https://svn.ms.mff.cuni.cz/svn/czeng/trunk/devel/completion/Makefile
Konkretne jde o cile:
%.stat … ktery jsem (rucne) spoustel jak na nefiltrovane (tj.
.hali), tak na filtrovane (tj. .filtered; cili ty po
Alesove hrube filtraci)
%.freqerrs … ten po pouziti na filtrovane ukaze, jake chyby jsou
nejcetnejsi, tj. ze kvuli nim ztratime nejvice dat – a nekdy se
vyplati takove chyby radeji resit nez data zahodit.
Dalsi navazujici ukol, nez na to zapomenu, bude ozivit v nove pipeline ty automaticke opravy pripadu 2-1 a 1-2 na 1-1. Ondrej pak dohleda, kde to byvalo.
predelat checkouty na export - ale jasne odlisit
opravit zpracovani titulku podle ostatnich ukolu
czeng09 - clean-navajo, clean-project_syndicate, clean-emea03 - trvaji hodne dlouho