Differences

This shows you the differences between two versions of the page.

--- user:zeman:dz-parser:icon [2009/11/02 22:51]
zeman Chunk label.
+++ user:zeman:dz-parser:icon [2009/11/19 15:49]
zeman Inventura seznamu věcí k udělání.
@@ Line 5: / Line 5: @@
 ===== Zbývá udělat =====
+  * Vybrat SVN repozitář, do kterého tyto pokusy budu archivovat, vybrat soubory, které tam patří (Makefile, specifické skripty, vstupní data, soubory s vyhodnocením...) a dát je tam.
+  * Více si pohrát s konfigurací Malt parseru. Zejména vyzkoušet všech 7 algoritmů.
+  * Více si pohrát s rysy. Naučit se parserům předhazovat rysy. U Malt parseru je to dobře zdokumentováno, u MST ne.
   * Přidat jako rys chunk label, a to i pro DZ Parser.
-  * Rozchodit podporu clusteru v makefilech, abych nemusel MST parser pouštět ručně zvlášť.
+  * Naivní parser pro telugštinu: poslední uzel visí na kořeni, ostatní uzly na posledním uzlu. Informace, zda závislost mezi dvěma uzly odpovídá tomuto pravidlu, může být rys, který budou parsery sledovat.
+  * Rozchodit podporu clusteru v makefilech, abych nemusel MST parser pouštět ručně zvlášť (''qmake'').
   * Vyzkoušet neprojektivní parsing MST parserem.
-  * Zjistit, jaká je úspěšnost naivního parseru, který pověsí poslední uzel na kořen a všechny předcházející uzly na poslední. Přinejmenším v&nbsp;telugských dtest datech takových případů vidím spoustu.
   * Zjistit, proč je tolik chyb v syntaktickém značkování, a vylepšit ho. Třeba pomocí nějakého toolkitu pro strojové učení (Mallet apod.) Uvědomit si, že na jednom slovesu zřejmě nemohou viset dvě káčka se stejnými čísly (karma-karta). Taky že většina sloves asi vyžaduje k1.
-  * Vybrat SVN repozitář, do kterého tyto pokusy budu archivovat, vybrat soubory, které tam patří (Makefile, specifické skripty, vstupní data, soubory s vyhodnocením...) a dát je tam.
   * Vyhodnotit křivku učení.
   * Vyhodnotit požadavky na procesor, paměť a disk (je třeba nejdříve rozchodit skript).
-  * Více si pohrát s rysy.
-  * Více si pohrát s konfigurací Malt parseru.
   * Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech.
-  * Konverze z&nbsp;wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v&nbsp;článku.
   * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences