====== Ondřej Dušek ====== [[http://tuetschek.wz.cz|Homepage]] ===== Projekty ===== ==== Vystadial ==== * [[user:dusek:vystadial|Vystadial]] ==== Generování češtiny (FAUST) ==== * [[user:dusek:analyza|Česká analýza]] * [[user:dusek:formemy_gen|Automatická detekce formémů z funktorů]] * [[user:dusek:morpho_gen|Generování morfologických atributů z formémů a gramatémů]] * reordering * hodnocení nejen BLEU nad původními větami, ale taky jazykovým modelem * to bude lepší pro zhodnocení, jestli je výsledná čeština čitelná * [[user:dusek:features|Seznam možných featur]] * [[user:dusek:gen-vysl|Výsledky]] ==== CzEng 1.0 ==== * [[user:dusek:funktory|Automatická detekce funktorů]] * [[user:dusek:formemy|Nová verze českých formémů]] * [[user:dusek:en-analyza|Anglická analýza]] ==== WMT 12 ==== * [[user:dusek:preklad-chyby|Nalezené chyby v překladu]] * [[internal:tectomt-wmt12|TectoMT WMT 12]] ==== PhD ==== * [[internal:user:dusek:phd-ideas|Nápady na PhD]] * [[internal:user:dusek:gauk|GAUK]] * [[internal:user:dusek:nlg-survey|NLG systems survey]] ===== TO-DO list ===== ==== Generování ==== * verbal * připojování dětí - nejak vylepsit, asi nejak statisticky (?) * falesna zlata a-rovina * rozgenerovavani viceslovnych t-lemmat (do budoucna by se stejne hodilo) * oprava tagu podle t-roviny ? na a-rovine "je" jako sloveso, na t-rovine je to opravene na "#PersPron", ale gramatemy a formem to pokazi (wsj_0010) * podivne chovani zavorek -- spravit * DeleteGeneratedNodes možná maže víc, než je nutné (wsj_0155##12 -- bylo očekáváno nezůstane ani ACT, ani PAT) * dopsat do evaluace něco, co bude koukat na chyby a zjišťovat jejich atributy nezávisle na atributech rodiče * to pak použít s odkazem na automatické afuny, lemmata apod., abych zjistil, kde je nejvíc chyb v generování * Generování * ReverseNumberNounDependency a "málo" ("nejméně dvouprocentní růst"), "%") * Wackernagel: "Nebyli se nuceni přepychu vzdát". * n:na+6 & jenž = na jehož * mozna nejake prunovani kandidatu na RelClauseCoref, nebo se zeptat Michala, jestli nema neco lepsiho (ted se neresi rod, takze vznikaji blbosti). * ma v umyslu -> v umyslu ma ... co je to za nesmysl? * nejak resit "quot"? * "jako vyzvu" - "n:jako+2" i kdyz je vyzvu nastavene spravne ... divne * "gen Ester" dává jen chemii, proč ? (obecně má "gen" problémy s uppercasovanými lemmaty) ==== Analýza ==== * Analýza * AuxY * "se" s funktorem "???" * formémy -- viz [[user:dusek:formemy#todo|TODO ve formémech]] * vybufetit starý scénář analýzy (z SVN) a naparsovat + archivovat PDT s 1., 1a. a 2. verzí formémů * slučování formémů ==== Překlad ==== * nové formémy v překladu ==== ML modely ==== * funktory * bag of words jako možná featura, případně s filtrováním interpunkce apod. * dovolit u weka-classifieru číst nastavení klasifikátoru ze souboru * zmenšit filtrování a zkusit funktory * verze bez :X formémů * binarizované verze pokusů * proč set-aware nepomáhá ? * nové featury do funktorů * znovu zprovoznit AverageAttributeRanks, aby bylo možné použít mrel * přidat distribuce pravděpodobnosti a nějaké constrainty do MLProcessBlock * sčítání modelů ==== Util ==== * qload -- u machines free filtr na ty, které mají volné sloty (k čemu je, že na iridiu je půl paměti volné, když je všech 16 slotů zabraných) * přepsat BLEU na možnost paralelizace * rollout všech paralelních verzí (a asi někam i toho zobacího skriptu) * AttributeStats -> Print:: * LayerAttributes: přidat wild atributy a libovolný kód * přes ':' nebo tak něco ? hlavně v kódu dát pozor na '->', které něco znamená (a vlastně i na mezery; chtělo by nějak obalit) * v zásadě stačí, aby to kódem nebo wild_attr muselo končit (mezery nevím) ===== Vyzkoušet ===== * Geneva parser * JANE – RWTH Aachen ===== Ostatní ===== * [[user:dusek:rants|Rants]] * [[user:dusek:tahaky|Taháky]] * [[internal:user:dusek:napady|Nápady]] * [[internal:user:dusek:whereiswhat|Where is what]] * [[user:dusek:python|Python]] * [[internal:user:dusek:web|Web]]