[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:ukoly:malt-parser [2007/10/26 23:30]
zeman Data CoNLL.
user:zeman:ukoly:malt-parser [2013/10/08 08:14] (current)
zeman quest
Line 3: Line 3:
 Stáhněte z internetu (např. z http://w3.msi.vxu.se/~nivre/research/MaltParser.html) Malt parser Joakima Nivreho, nainstalujte ho a rozchoďte ho. Dostanete k dispozici anotovaný korpus, který si rozdělíte na trénovací a testovací data. Natrénujte parser na trénovacích datech, rozeberte jím testovací data a zjistěte, jaké úspěšnosti parser dosahuje. Stáhněte z internetu (např. z http://w3.msi.vxu.se/~nivre/research/MaltParser.html) Malt parser Joakima Nivreho, nainstalujte ho a rozchoďte ho. Dostanete k dispozici anotovaný korpus, který si rozdělíte na trénovací a testovací data. Natrénujte parser na trénovacích datech, rozeberte jím testovací data a zjistěte, jaké úspěšnosti parser dosahuje.
  
-Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce. Níže najdete otázky, na které byste při experimentech měli hledat odpověď; do prezentace však zahrňte i další zajímavosti, na které při pokusech narazíte, ať už se týkají technických aspektů práce s taggerem, zajímavostí v datech, se kterými jste pracovali, nebo námětů, jak zlepšit úspěšnost taggeru.+Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce. Níže najdete otázky, na které byste při experimentech měli hledat odpověď; do prezentace však zahrňte i další zajímavosti, na které při pokusech narazíte, ať už se týkají technických aspektů práce s parserem, zajímavostí v datech, se kterými jste pracovali, nebo námětů, jak zlepšit úspěšnost parseru. 
 + 
 +Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a spíše platformově nezávislé - to se týká zejména těch, které přímo nevolají Nivreho software. V případě potřeby ale můžete využít externí programy běžně dostupné v Linuxu, které nelze snadno nahradit příkazy Perlu (např. gzip). Skripty by neměly záviset na konkrétním rozmístění souborů na vašem disku. Samozřejmě budou muset vědět, kde máte vybalený parser s příslušenstvím, k tomu použijte proměnnou prostředí ''MALT''. (V Perlu dostupná jako ''$ENV{MALT}''.) Dokumentace ke skriptům stačí uživatelská, tj. seznam skriptů, ke každému způsob volání a jednou dvěma větami popsáno, k čemu slouží.
  
-Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a spíše platformově nezávislé - to se týká zejména těch, které přímo nevolají Nivreho software. V případě potřeby ale můžete využít externí programy běžně dostupné v Linuxu, které nelze snadno nahradit příkazy Perlu (např. gzip). Skripty by neměly záviset na konkrétním rozmístění souborů na vašem disku. Samozřejmě budou muset vědět, kde máte vybalený tagger s příslušenstvím, k tomu použijte proměnnou prostředí ''MALT''. (V Perlu dostupná jako ''$ENV{MALT}''.) Dokumentace ke skriptům stačí uživatelská, tj. seznam skriptů, ke každému způsob volání a jednou dvěma větami popsáno, k čemu slouží. 
  
 ===== Poznámky k architektuře ===== ===== Poznámky k architektuře =====
Line 14: Line 15:
   * Windows / Cygwin / Intel   * Windows / Cygwin / Intel
   * MacOS X / MacIntosh   * MacOS X / MacIntosh
 +
 +**Poznámka:** Nová verze už je open source v Javě!
  
 ===== Otázky ===== ===== Otázky =====
Line 43: Line 46:
   * Naivní parser, který se volá stejně jako výše popsané rozhraní na Malt parser, ale chová se zcela naivně (levý soused je rodič, viz výše).   * Naivní parser, který se volá stejně jako výše popsané rozhraní na Malt parser, ale chová se zcela naivně (levý soused je rodič, viz výše).
   * Skript, kterému se předá ručně rozebraný text (tzv. gold standard) a tentýž text rozebraný parserem. Skript vypíše úspěšnost parseru (tj. procento slov, jimž byl správně přiřazen rodič) a případný další rozbor chyb.   * Skript, kterému se předá ručně rozebraný text (tzv. gold standard) a tentýž text rozebraný parserem. Skript vypíše úspěšnost parseru (tj. procento slov, jimž byl správně přiřazen rodič) a případný další rozbor chyb.
 +
  
 ===== Data ===== ===== Data =====
  
-Označkovaná data ve [[Formát CoNLL|formátu CoNLL]]. Každé slovo leží na samostatném řádku, jsou tam k němu různé údaje (např. lemma, značka) oddělené tabulátory. Věty jsou oddělené prázdným řádkem.+Označkovaná data ve [[:Formát CoNLL|formátu CoNLL]]. Každé slovo leží na samostatném řádku, jsou tam k němu různé údaje (např. lemma, značka) oddělené tabulátory. Věty jsou oddělené prázdným řádkem.
  
 ==== Čeština ==== ==== Čeština ====
  
-Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "PFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data.+Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "NPFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data.
  
 ==== Švédština ==== ==== Švédština ====
Line 61: Line 65:
 Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu. Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu.
 {{user:zeman:ukoly:da.conll.zip|stáhnout}} {{user:zeman:ukoly:da.conll.zip|stáhnout}}
 +
 +===== Další informace =====
 +
 +Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).
 +
 +Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci.
 +

[ Back to the navigation ] [ Back to the content ]