This is an old revision of the document!
Table of Contents
Ondřej Dušek
Projekty
Generování češtiny (FAUST)
- reordering
- hodnocení nejen BLEU nad původními větami, ale taky jazykovým modelem
- to bude lepší pro zhodnocení, jestli je výsledná čeština čitelná
CzEng 1.0
WMT 12
PhD ideas
TO-DO list
Generování
- verbal
- připojování dětí - nejak vylepsit, asi nejak statisticky (?)
- falesna zlata a-rovina
- rozgenerovavani viceslovnych t-lemmat (do budoucna by se stejne hodilo)
- oprava tagu podle t-roviny ? na a-rovine “je” jako sloveso, na t-rovine je to opravene na “#PersPron”, ale gramatemy a formem to pokazi (wsj_0010)
- podivne chovani zavorek – spravit
- DeleteGeneratedNodes možná maže víc, než je nutné (wsj_0155##12 – bylo očekáváno nezůstane ani ACT, ani PAT)
- dopsat do evaluace něco, co bude koukat na chyby a zjišťovat jejich atributy nezávisle na atributech rodiče
- to pak použít s odkazem na automatické afuny, lemmata apod., abych zjistil, kde je nejvíc chyb v generování
- Generování
- ReverseNumberNounDependency a “málo” (“nejméně dvouprocentní růst”), “%”)
- Wackernagel: “Nebyli se nuceni přepychu vzdát”.
- n:na+6 & jenž = na jehož
- mozna nejake prunovani kandidatu na RelClauseCoref, nebo se zeptat Michala, jestli nema neco lepsiho (ted se neresi rod, takze vznikaji blbosti).
- ma v umyslu → v umyslu ma … co je to za nesmysl?
- nejak resit “quot”?
- “jako vyzvu” - “n:jako+2” i kdyz je vyzvu nastavene spravne … divne
- “gen Ester” dává jen chemii, proč ? (obecně má “gen” problémy s uppercasovanými lemmaty)
Analýza
- Analýza
- AuxY
- “se” s funktorem “???”
- formémy – viz TODO ve formémech
- vybufetit starý scénář analýzy (z SVN) a naparsovat + archivovat PDT s 1., 1a. a 2. verzí formémů
- slučování formémů
Překlad
- nové formémy v překladu
ML modely
- funktory
- bag of words jako možná featura, případně s filtrováním interpunkce apod.
- dovolit u weka-classifieru číst nastavení klasifikátoru ze souboru
- zmenšit filtrování a zkusit funktory
- verze bez :X formémů
- binarizované verze pokusů
- nové featury do funktorů
- znovu zprovoznit AverageAttributeRanks, aby bylo možné použít mrel
- přidat distribuce pravděpodobnosti a nějaké constrainty do MLProcessBlock
- sčítání modelů
Util
- qload – u machines free filtr na ty, které mají volné sloty (k čemu je, že na iridiu je půl paměti volné, když je všech 16 slotů zabraných)
- přepsat BLEU na možnost paralelizace
- rollout všech paralelních verzí (a asi někam i toho zobacího skriptu)
- AttributeStats → Print::
- LayerAttributes: přidat wild atributy a libovolný kód
- přes ':' nebo tak něco ? hlavně v kódu dát pozor na '→', které něco znamená (a vlastně i na mezery; chtělo by nějak obalit)
- v zásadě stačí, aby to kódem nebo wild_attr muselo končit (mezery nevím)
Vyzkoušet
- Geneva parser
- JANE – RWTH Aachen