Table of Contents
Ondřej Dušek
Projekty
Vystadial
Generování češtiny (FAUST)
CzEng 1.0
WMT 12
PhD
TO-DO list
Generování
Analýza
Překlad
ML modely
Util
Vyzkoušet
Ostatní
Ondřej Dušek
Homepage
Projekty
Vystadial
Vystadial
Generování češtiny (FAUST)
Česká analýza
Automatická detekce formémů z funktorů
Generování morfologických atributů z formémů a gramatémů
reordering
hodnocení nejen BLEU nad původními větami, ale taky jazykovým modelem
to bude lepší pro zhodnocení, jestli je výsledná čeština čitelná
Seznam možných featur
Výsledky
CzEng 1.0
Automatická detekce funktorů
Nová verze českých formémů
Anglická analýza
WMT 12
Nalezené chyby v překladu
TectoMT WMT 12
PhD
Nápady na PhD
GAUK
NLG systems survey
TO-DO list
Generování
verbal
připojování dětí - nejak vylepsit, asi nejak statisticky (?)
falesna zlata a-rovina
rozgenerovavani viceslovnych t-lemmat (do budoucna by se stejne hodilo)
oprava tagu podle t-roviny ? na a-rovine “je” jako sloveso, na t-rovine je to opravene na “#PersPron”, ale gramatemy a formem to pokazi (wsj_0010)
podivne chovani zavorek – spravit
DeleteGeneratedNodes možná maže víc, než je nutné (wsj_0155##12 – bylo očekáváno nezůstane ani ACT, ani PAT)
dopsat do evaluace něco, co bude koukat na chyby a zjišťovat jejich atributy nezávisle na atributech rodiče
to pak použít s odkazem na automatické afuny, lemmata apod., abych zjistil, kde je nejvíc chyb v generování
Generování
ReverseNumberNounDependency a “málo” (“nejméně dvouprocentní růst”), “%”)
Wackernagel: “Nebyli se nuceni přepychu vzdát”.
n:na+6 & jenž = na jehož
mozna nejake prunovani kandidatu na RelClauseCoref, nebo se zeptat Michala, jestli nema neco lepsiho (ted se neresi rod, takze vznikaji blbosti).
ma v umyslu → v umyslu ma … co je to za nesmysl?
nejak resit “quot”?
“jako vyzvu” - “n:jako+2” i kdyz je vyzvu nastavene spravne … divne
“gen Ester” dává jen chemii, proč ? (obecně má “gen” problémy s uppercasovanými lemmaty)
Analýza
Analýza
AuxY
“se” s funktorem “???”
formémy – viz
TODO ve formémech
vybufetit starý scénář analýzy (z
SVN
) a naparsovat + archivovat
PDT
s 1., 1a. a 2. verzí formémů
slučování formémů
Překlad
nové formémy v překladu
ML modely
funktory
bag of words jako možná featura, případně s filtrováním interpunkce apod.
dovolit u weka-classifieru číst nastavení klasifikátoru ze souboru
zmenšit filtrování a zkusit funktory
verze bez :X formémů
binarizované verze pokusů
proč set-aware nepomáhá ?
nové featury do funktorů
znovu zprovoznit AverageAttributeRanks, aby bylo možné použít mrel
přidat distribuce pravděpodobnosti a nějaké constrainty do MLProcessBlock
sčítání modelů
Util
qload – u machines free filtr na ty, které mají volné sloty (k čemu je, že na iridiu je půl paměti volné, když je všech 16 slotů zabraných)
přepsat BLEU na možnost paralelizace
rollout všech paralelních verzí (a asi někam i toho zobacího skriptu)
AttributeStats → Print::
LayerAttributes: přidat wild atributy a libovolný kód
přes ':' nebo tak něco ? hlavně v kódu dát pozor na '→', které něco znamená (a vlastně i na mezery; chtělo by nějak obalit)
v zásadě stačí, aby to kódem nebo wild_attr muselo končit (mezery nevím)
Vyzkoušet
Geneva parser
JANE – RWTH Aachen
Ostatní
Rants
Taháky
Nápady
Where is what
Python
Web