[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:malt-parser [2013/06/12 13:08]
zeman Úprava.
user:zeman:malt-parser [2013/06/12 13:29]
zeman conll-pdttags2conll.pl
Line 10: Line 10:
  
 Celá trénovací data mají 68563 vět. Testování je vždy na celém dtestu, tedy 9270 vět. Celá trénovací data mají 68563 vět. Testování je vždy na celém dtestu, tedy 9270 vět.
 +
 +===== Jak se to pouští? =====
 +
 +  * Přejít do adresáře ''/net/work/people/zeman/parsing/projects/maltpdt'', popř. si nejdřív někam vybalit SVN parsing a pak přejít do složky ''projects/maltpdt''.
 +  * Skript ''getdata.csh'', případně ''getdata.gold.csh'' (pokud chceme použít ručně zjednoznačněnou morfologii), nám vyrobí místní kopii trénovacích a testovacích dat, převedenou do formátu CoNLL. Jsou to data z PDT 2.0 (train, dtest a etest na analytické rovině) a já už je mám na toto místo zkopírované.
 +  * Složka ''/net/work/people/zeman/parsing/projects/maltpdt/uppsala-features'' obsahuje pokusy, ve kterých jsem se snažil co nejvíce přiblížit nastavení, které se nejvíce osvědčilo Joakimovi a jeho týmu v roce 2009. Příslušné soubory s definicemi rysů jsou ve složce ''/net/work/people/zeman/parsing/malt-parser/marco-kuhlmann-czech-settings''. Je tam také skript ''conll-pdttags2conll.pl'', kterým se patnáctimístné poziční značky PDT převedou na takové seznamy rysů a hodnot, jaké se používaly v soutěži CoNLL 2009.
 +''
  
 ===== Co dál? ===== ===== Co dál? =====

[ Back to the navigation ] [ Back to the content ]