Differences

This shows you the differences between two versions of the page.

--- user:dusek:start [2011/10/04 14:14]
dusek
+++ user:dusek:start [2013/04/12 14:37] (current)
dusek
@@ Line 1: / Line 1: @@
-==== Ondřej Dušek ====
+====== Ondřej Dušek ======
 [[http://tuetschek.wz.cz|Homepage]]
-=== Projekty -- popisky ===
+===== Projekty =====
-== Generování češtiny (FAUST) ==
+==== Vystadial ====
+  * [[user:dusek:vystadial|Vystadial]]
+==== Generování češtiny (FAUST) ====
+  * [[user:dusek:analyza|Česká analýza]]
   * [[user:dusek:formemy_gen|Automatická detekce formémů z funktorů]]
   * [[user:dusek:morpho_gen|Generování morfologických atributů z formémů a gramatémů]]
+  * reordering
+  * hodnocení nejen BLEU nad původními větami, ale taky jazykovým modelem
+    * to bude lepší pro zhodnocení, jestli je výsledná čeština čitelná
+  * [[user:dusek:features|Seznam možných featur]]
+  * [[user:dusek:gen-vysl|Výsledky]]
-== CzEng ==
+==== CzEng 1.0 ====
   * [[user:dusek:funktory|Automatická detekce funktorů]]
   * [[user:dusek:formemy|Nová verze českých formémů]]
+  * [[user:dusek:en-analyza|Anglická analýza]]
-=== TO-DO list ===
+==== WMT 12 ====
-  * Martin: <del>shared_files_paths, writery</del>, jak se trénuje překlad
+  * [[user:dusek:preklad-chyby|Nalezené chyby v překladu]]
-  * binarizované verze pokusů
+  * [[internal:tectomt-wmt12|TectoMT WMT 12]]
-  * nové featury do funktorů
+==== PhD ====
+  * [[internal:user:dusek:phd-ideas|Nápady na PhD]]
+  * [[internal:user:dusek:gauk|GAUK]]
+  * [[internal:user:dusek:nlg-survey|NLG systems survey]]
+===== TO-DO list =====
+==== Generování ====
+  * verbal
+    * připojování dětí - nejak vylepsit, asi nejak statisticky (?)
+  * falesna zlata a-rovina
+    * rozgenerovavani viceslovnych t-lemmat (do budoucna by se stejne hodilo)
+    * oprava tagu podle t-roviny ? na a-rovine "je" jako sloveso, na t-rovine je to opravene na "#PersPron", ale gramatemy a formem to pokazi (wsj_0010)
+    * podivne chovani zavorek -- spravit
+    * DeleteGeneratedNodes možná maže víc, než je nutné (wsj_0155##12 -- bylo očekáváno nezůstane ani ACT, ani PAT)
+    * dopsat do evaluace něco, co bude koukat na chyby a zjišťovat jejich atributy nezávisle na atributech rodiče
+      * to pak použít s odkazem na automatické afuny, lemmata apod., abych zjistil, kde je nejvíc chyb v generování
+  * Generování
+    * ReverseNumberNounDependency a "málo" ("nejméně dvouprocentní růst"), "%")
+  * Wackernagel: "Nebyli se nuceni přepychu vzdát".
+  * n:na+6 & jenž = na jehož
+  * mozna nejake prunovani kandidatu na RelClauseCoref, nebo se zeptat Michala, jestli nema neco lepsiho (ted se neresi rod, takze vznikaji blbosti).
+  * ma v umyslu -> v umyslu ma ... co je to za nesmysl?
+  * nejak resit "quot"?
+  * "jako vyzvu" - "n:jako+2" i kdyz je vyzvu nastavene spravne ... divne
+  * "gen Ester" dává jen chemii, proč ? (obecně má "gen" problémy s uppercasovanými lemmaty)
+==== Analýza ====
+  * Analýza
+    * AuxY
+    * "se" s funktorem "???"
+  * formémy -- viz [[user:dusek:formemy#todo|TODO ve formémech]]
+  * vybufetit starý scénář analýzy (z SVN) a naparsovat + archivovat PDT s 1., 1a. a 2. verzí formémů
   * slučování formémů
+==== Překlad ====
   * nové formémy v překladu
-    * přeznačkovat CzEng ?
+==== ML modely ====
-  * sčítání modelů
+  * funktory
+    * bag of words jako možná featura, případně s filtrováním interpunkce apod.
+  * dovolit u weka-classifieru číst nastavení klasifikátoru ze souboru
+  * zmenšit filtrování a zkusit funktory
+  * verze bez :X formémů
+  * binarizované verze pokusů
+    * proč set-aware nepomáhá ?
+  * nové featury do funktorů
+  * znovu zprovoznit AverageAttributeRanks, aby bylo možné použít mrel
   * přidat distribuce pravděpodobnosti a nějaké constrainty do MLProcessBlock
+  * sčítání modelů
+==== Util ====
+  * qload -- u machines free filtr na ty, které mají volné sloty (k čemu je, že na iridiu je půl paměti volné, když je všech 16 slotů zabraných)
+  * přepsat BLEU na možnost paralelizace
+    * rollout všech paralelních verzí (a asi někam i toho zobacího skriptu)
+  * AttributeStats -> Print::
+  * LayerAttributes: přidat wild atributy a libovolný kód
+    * přes ':' nebo tak něco ? hlavně v kódu dát pozor na '->', které něco znamená (a vlastně i na mezery; chtělo by nějak obalit)
+    * v zásadě stačí, aby to kódem nebo wild_attr muselo končit (mezery nevím)
+===== Vyzkoušet =====
+  * Geneva parser
+  * JANE – RWTH Aachen
+===== Ostatní =====
+  * [[user:dusek:rants|Rants]]
+  * [[user:dusek:tahaky|Taháky]]
+  * [[internal:user:dusek:napady|Nápady]]
+  * [[internal:user:dusek:whereiswhat|Where is what]]
+  * [[user:dusek:python|Python]]
+  * [[internal:user:dusek:web|Web]]
-=== PDT-návrhy ===
-  * //aby, kdyby// -- proč je tense=ant, verbmod=ind (proti //by//, kde je tense=sim, verbmod=cdn)
-  * proč se nerozlišuje epistemická modalita?

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences