[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:dusek:start [2011/10/06 18:30]
dusek
user:dusek:start [2012/01/24 16:41]
dusek
Line 1: Line 1:
-==== Ondřej Dušek ====+====== Ondřej Dušek ======
 [[http://tuetschek.wz.cz|Homepage]] [[http://tuetschek.wz.cz|Homepage]]
  
-=== Projekty -- popisky === +===== Projekty -- popisky ===== 
-== Generování češtiny (FAUST) ==+==== Generování češtiny (FAUST) ==== 
 +  * [[user:dusek:analyza|Česká analýza]]
   * [[user:dusek:formemy_gen|Automatická detekce formémů z funktorů]]   * [[user:dusek:formemy_gen|Automatická detekce formémů z funktorů]]
   * [[user:dusek:morpho_gen|Generování morfologických atributů z formémů a gramatémů]]   * [[user:dusek:morpho_gen|Generování morfologických atributů z formémů a gramatémů]]
Line 10: Line 11:
     * to bude lepší pro zhodnocení, jestli je výsledná čeština čitelná     * to bude lepší pro zhodnocení, jestli je výsledná čeština čitelná
   * [[user:dusek:features|Seznam možných featur]]   * [[user:dusek:features|Seznam možných featur]]
 +  * [[user:dusek:gen-vysl|Výsledky]]
  
-== CzEng ==+==== CzEng 1.0 ====
   * [[user:dusek:funktory|Automatická detekce funktorů]]   * [[user:dusek:funktory|Automatická detekce funktorů]]
   * [[user:dusek:formemy|Nová verze českých formémů]]   * [[user:dusek:formemy|Nová verze českých formémů]]
 +  * [[user:dusek:en-analyza|Anglická analýza]]
  
-=== TO-DO list === +==== WMT 12 ==== 
-  * formém "n:u tagů AO !!! + 
-    * vyřešit problém doplňky, které asi nemůžou mít n:1protože se to moc plete s podmětem a nedoplňuje se #PersPron + 
-    * zřejmě brát podle Atv / AtvV ??+ 
 +===== TO-DO list ===== 
 +  * verbal 
 +    * připojování dětí - nejak vylepsit, asi nejak statisticky 
 +  * falesna zlata a-rovina 
 +    * rozgenerovavani viceslovnych t-lemmat (do budoucna by se stejne hodilo) 
 +    * oprava tagu podle t-roviny ? na a-rovine "jejako sloveso, na t-rovine je to opravene na "#PersPron", ale gramatemy a formem to pokazi (wsj_0010) 
 +    * podivne chovani zavorek -- spravit 
 +    * dopsat do MonolingualGreedy, aby se uz prirazene uzly penalizovaly (opakovani stejne formy, kdy poprve je to presna forma, podruhe je tam spatna forma, ale dobre lemma -- wsj_0155##12) 
 +  * Analýza 
 +    * AuxY 
 +    * "se" s funktorem "???" 
 +  * Generování 
 +    * ReverseNumberNounDependency a "málo" ("nejméně dvouprocentní růst"), "%"
 +  * funktory 
 +    * bag of words jako možná featura, případně filtrováním interpunkce apod. 
 +  * formémy -- viz [[user:dusek:formemy#todo|TODO ve formémech]] 
 +  * qload -- u machines free filtr na ty, které mají volné sloty (k čemu je, že na iridiu je půl paměti volné, když je všech 16 slotů zabraných) 
 +  dovolit u weka-classifieru číst nastavení klasifikátoru ze souboru 
 +  * vybufetit starý scénář analýzy (SVN) a naparsovat + archivovat PDT s 1., 1a. a 2. verzí formémů 
 +  * zmenšit filtrování a zkusit funktory 
 +  * přepsat BLEU na možnost paralelizace 
 +    * rollout všech paralelních verzí (a asi někam i toho zobacího skriptu)
   * verze bez :X formémů   * verze bez :X formémů
   * binarizované verze pokusů   * binarizované verze pokusů
-  * nové writery 
-  * funktory: koordinační hlavy 
   * nové featury do funktorů   * nové featury do funktorů
   * slučování formémů   * slučování formémů
   * nové formémy v překladu   * nové formémy v překladu
-    * přeznačkovat CzEng ? 
-  * sčítání modelů 
   * přidat distribuce pravděpodobnosti a nějaké constrainty do MLProcessBlock   * přidat distribuce pravděpodobnosti a nějaké constrainty do MLProcessBlock
 +  * sčítání modelů
   * AttributeStats -> Print::   * AttributeStats -> Print::
 +  * znovu zprovoznit AverageAttributeRanks, aby bylo možné použít mrel
 +  * LayerAttributes: přidat wild atributy a libovolný kód
 +    * přes ':' nebo tak něco ? hlavně v kódu dát pozor na '->', které něco znamená (a vlastně i na mezery; chtělo by nějak obalit)
 +    * v zásadě stačí, aby to kódem nebo wild_attr muselo končit (mezery nevím)
  
 +===== Ostatní =====
 +  * [[user:dusek:rants|Rants]]
 +  * [[user:dusek:tahaky|Taháky]]
 +  * [[internal:user:dusek:napady|Nápady]]
  
-=== Rants === 
-== PDT == 
-  * //aby, kdyby// -- proč je tense=ant, verbmod=ind (proti //by//, kde je tense=sim, verbmod=cdn) 
-  * proč se nerozlišuje epistemická modalita? 
-  * proč není v popisu PDT u morfologie uvedený P1 a A2 ? 
- 
-== Morfoanalýza == 
-  * proč se neurčuje A2 u česko - slovenský apod. ? 
-  * Havlíčkův-2, Romeův, Richterův, Poův / Poeův, Káňův, Hubbleův (a možná další) 
  

[ Back to the navigation ] [ Back to the content ]