This is an old revision of the document!
Table of Contents
Ondřej Dušek
Projekty -- popisky
Generování češtiny (FAUST)
- reordering
- hodnocení nejen BLEU nad původními větami, ale taky jazykovým modelem
- to bude lepší pro zhodnocení, jestli je výsledná čeština čitelná
CzEng 1.0
WMT 12
TO-DO list
- verbal - připojování dětí
- funktory na zlatých datech
- bag of words jako možná featura, případně s filtrováním interpunkce apod.
- qload – u machines free filtr na ty, které mají volné sloty (k čemu je, že na iridiu je půl paměti volné, když je všech 16 slotů zabraných)
- dovolit u weka-classifieru číst nastavení klasifikátoru ze souboru
- vybufetit starý scénář analýzy (z SVN) a naparsovat + archivovat PDT s 1., 1a. a 2. verzí formémů
- nové writery
- dopsat BaseWriter a BaseTextWriter, zjistit co je bundle_attr nebo tak něco
- dat dohromady process_document, spojit vsechna autom. vytvareni jmen souboru
- otestovat, Treex, Factored a podobne
- zmenšit filtrování a zkusit funktory
- přepsat BLEU na možnost paralelizace
- rollout všech paralelních verzí (a asi někam i toho zobacího skriptu)
- verze bez :X formémů
- binarizované verze pokusů
- nové featury do funktorů
- slučování formémů
- nové formémy v překladu
- přidat distribuce pravděpodobnosti a nějaké constrainty do MLProcessBlock
- sčítání modelů
- AttributeStats → Print::
- znovu zprovoznit AverageAttributeRanks, aby bylo možné použít mrel
- LayerAttributes: přidat wild atributy a libovolný kód
- přes ':' nebo tak něco ? hlavně v kódu dát pozor na '→', které něco znamená (a vlastně i na mezery; chtělo by nějak obalit)
- v zásadě stačí, aby to kódem nebo wild_attr muselo končit (mezery nevím)