[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
user:dusek:start [2011/07/13 12:08]
dusek vytvořeno
user:dusek:start [2012/02/12 22:09]
dusek
Line 1: Line 1:
-Ondřej Dušek+====== Ondřej Dušek ====== 
 +[[http://tuetschek.wz.cz|Homepage]] 
 + 
 +===== Projekty -- popisky ===== 
 +==== Generování češtiny (FAUST) ==== 
 +  * [[user:dusek:analyza|Česká analýza]] 
 +  * [[user:dusek:formemy_gen|Automatická detekce formémů z funktorů]] 
 +  * [[user:dusek:morpho_gen|Generování morfologických atributů z formémů a gramatémů]] 
 +  * reordering 
 +  * hodnocení nejen BLEU nad původními větami, ale taky jazykovým modelem 
 +    * to bude lepší pro zhodnocení, jestli je výsledná čeština čitelná 
 +  * [[user:dusek:features|Seznam možných featur]] 
 +  * [[user:dusek:gen-vysl|Výsledky]] 
 + 
 +==== CzEng 1.0 ==== 
 +  * [[user:dusek:funktory|Automatická detekce funktorů]] 
 +  * [[user:dusek:formemy|Nová verze českých formémů]] 
 +  * [[user:dusek:en-analyza|Anglická analýza]] 
 + 
 +==== WMT 12 ==== 
 +  * [[dusek:preklad-chyby|Nalezené chyby v překladu]] 
 + 
 + 
 +===== TO-DO list ===== 
 +==== Generování ==== 
 +  * verbal 
 +    * připojování dětí - nejak vylepsit, asi nejak statisticky (?) 
 +  * falesna zlata a-rovina 
 +    * rozgenerovavani viceslovnych t-lemmat (do budoucna by se stejne hodilo) 
 +    * oprava tagu podle t-roviny ? na a-rovine "je" jako sloveso, na t-rovine je to opravene na "#PersPron", ale gramatemy a formem to pokazi (wsj_0010) 
 +    * podivne chovani zavorek -- spravit 
 +    * DeleteGeneratedNodes možná maže víc, než je nutné (wsj_0155##12 -- bylo očekáváno nezůstane ani ACT, ani PAT) 
 +    * dopsat do evaluace něco, co bude koukat na chyby a zjišťovat jejich atributy nezávisle na atributech rodiče 
 +      * to pak použít s odkazem na automatické afuny, lemmata apod., abych zjistil, kde je nejvíc chyb v generování 
 +  * Generování 
 +    * ReverseNumberNounDependency a "málo" ("nejméně dvouprocentní růst"), "%"
 +==== Analýza ==== 
 +  * Analýza 
 +    * AuxY 
 +    * "se" s funktorem "???" 
 +  * formémy -- viz [[user:dusek:formemy#todo|TODO ve formémech]] 
 +  * vybufetit starý scénář analýzy (z SVN) a naparsovat + archivovat PDT s 1., 1a. a 2. verzí formémů 
 +  * slučování formémů 
 +==== Překlad ==== 
 +  * nové formémy v překladu 
 +==== ML modely ==== 
 +  * funktory 
 +    * bag of words jako možná featura, případně s filtrováním interpunkce apod. 
 +  * dovolit u weka-classifieru číst nastavení klasifikátoru ze souboru 
 +  * zmenšit filtrování a zkusit funktory 
 +  * verze bez :X formémů 
 +  * binarizované verze pokusů 
 +  * nové featury do funktorů 
 +  * znovu zprovoznit AverageAttributeRanks, aby bylo možné použít mrel 
 +  * přidat distribuce pravděpodobnosti a nějaké constrainty do MLProcessBlock 
 +  * sčítání modelů 
 +==== Util ==== 
 +  * qload -- u machines free filtr na ty, které mají volné sloty (k čemu je, že na iridiu je půl paměti volné, když je všech 16 slotů zabraných) 
 +  * přepsat BLEU na možnost paralelizace 
 +    * rollout všech paralelních verzí (a asi někam i toho zobacího skriptu) 
 +  * AttributeStats -> Print:: 
 +  * LayerAttributes: přidat wild atributy a libovolný kód 
 +    * přes ':' nebo tak něco ? hlavně v kódu dát pozor na '->', které něco znamená (a vlastně i na mezery; chtělo by nějak obalit) 
 +    * v zásadě stačí, aby to kódem nebo wild_attr muselo končit (mezery nevím) 
 + 
 +===== Ostatní ===== 
 +  * [[user:dusek:rants|Rants]] 
 +  * [[user:dusek:tahaky|Taháky]] 
 +  * [[internal:user:dusek:napady|Nápady]] 
  

[ Back to the navigation ] [ Back to the content ]