Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser:icon [2009/10/28 18:51] zeman Koordinace. |
user:zeman:dz-parser:icon [2009/11/19 18:10] zeman Projekt přenesen do SVN. |
||
---|---|---|---|
Line 5: | Line 5: | ||
===== Zbývá udělat ===== | ===== Zbývá udělat ===== | ||
- | * Napsat | + | * Více si pohrát s konfigurací Malt parseru. Zejména vyzkoušet všech 7 algoritmů. |
- | * Rozchodit podporu clusteru v makefilech, abych nemusel MST parser pouštět ručně zvlášť. | + | * Více si pohrát s rysy. Naučit se parserům předhazovat rysy. U Malt parseru je to dobře zdokumentováno, |
+ | * Přidat jako rys chunk label, a to i pro DZ Parser. | ||
+ | * Naivní parser pro telugštinu: | ||
+ | * Rozchodit podporu clusteru v makefilech, abych nemusel MST parser pouštět ručně zvlášť | ||
* Vyzkoušet neprojektivní parsing MST parserem. | * Vyzkoušet neprojektivní parsing MST parserem. | ||
- | * Zjistit, jaká je úspěšnost naivního parseru, který pověsí poslední uzel na kořen a všechny předcházející uzly na poslední. Přinejmenším v& | ||
* Zjistit, proč je tolik chyb v syntaktickém značkování, | * Zjistit, proč je tolik chyb v syntaktickém značkování, | ||
- | * Vybrat SVN repozitář, | ||
* Vyhodnotit křivku učení. | * Vyhodnotit křivku učení. | ||
* Vyhodnotit požadavky na procesor, paměť a disk (je třeba nejdříve rozchodit skript). | * Vyhodnotit požadavky na procesor, paměť a disk (je třeba nejdříve rozchodit skript). | ||
- | * Více si pohrát s rysy. | ||
- | * Více si pohrát s konfigurací Malt parseru. | ||
* Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech. | * Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech. | ||
- | * Konverze z& | ||
* Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, | * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, | ||
Line 42: | Line 40: | ||
| bn | 39.52 | 44.14 | | | bn | 39.52 | 44.14 | | ||
| te | 73.75 | 76.89 | | | te | 73.75 | 76.89 | | ||
- | |||
- | |||
===== Analýza chyb ===== | ===== Analýza chyb ===== | ||
Line 58: | Line 54: | ||
< | < | ||
+ | |||
+ | Tady je ještě jedna alternativa (pozor, tohle je pro změnu okopírováno z& | ||
+ | |||
+ | < | ||
+ | ts and Settings\Dan\Dokumenty\Lingvistika\Projekty\padapt\parsingroot\tools" | ||
+ | C: | ||
+ | -l te -t sci -g te/ | ||
+ | est.voted.1.fs</ | ||
Není pravda, že ze značky POS jednoznačně vyplývá značka chunku. Proto bych měl parserům poskytnout obě značky, může jim to pomoct. Např. v& | Není pravda, že ze značky POS jednoznačně vyplývá značka chunku. Proto bych měl parserům poskytnout obě značky, může jim to pomoct. Např. v& |