Differences

This shows you the differences between two versions of the page.

--- user:zeman:dz-parser:icon [2012/12/08 10:29]
zeman Udělat.
+++ user:zeman:dz-parser:icon [2012/12/10 17:44]
zeman Odstraněny zastaralé výsledky.
@@ Line 16: / Line 16: @@
 HTB verze 0,51: train 12041 sent, 268093 tok? (words), dev 1233 / 26416
+**MST parser:** V&nbsp;TectoMT share mají verzi 0.4.3b z&nbsp;října 2009 (''$TMT_ROOT/share/installed_tools/parser/mst/0.4.3b''). Já možná mám nebo jsem měl v&nbsp;''~/nastroje/parsery'' totéž, ale soubor README se tváří, že by to měla být verze 0.5.0. Na [[http://sourceforge.net/projects/mstparser/|Sourceforge]] se tváří, že poslední aktualizace byla 23.1.2012 a verze se stále jmenuje 0.5.0. Resp. možná se tak jmenuje až tahle letošní, protože předcházející aktivita byla 6.5.2011, a to byla zveřejněna verze 0.4.3c. (A verze 0.4.3b ve skutečnosti podle Sourceforge pochází už z&nbsp;4.4.2007.)
 Vyhodnotit samostatně
@@ Line 21: / Line 23: @@
   * uvnitř chunku vs. mezi chunky
   * pro jednotlivé s-značky
+===== Výsledky =====
+==== Různé redukce značek ====
+Je vhodné využívat formát dat CoNLL, který je i pro MST parser nyní výchozí. Při konverzi do původního formátu MST je nutné rozhodnout, co prohlásíme za morfologickou značku. Pokud nechceme zbytek informace zahodit, tak máme značky velmi dlouhé a neumožňujeme parseru vybrat si, jaká jejich část ho zajímá nejvíc. Naproti tomu ve formátu CoNLL bere MST parser 0.4.3b v úvahu všechny morfologické sloupce (CPOS, POS i FEAT), jak vyplývá z následujících pokusů. Zatím jsem nezkoumal, zda je schopen rozložit obsah sloupce FEAT na samostatné rysy. A nikdy jsem mu nedal kompletní rysy, vždy jsem je omezil buď na vibhakti + tam, nebo jsem je úplně vymazal.
+Zlatý standard morfologie, trénování na 1000 větách, neprojektivní MST parser 2. řádu. Střídavě jsem redukoval nebo mazal (nahrazoval podtržítkem) hodnoty v různých sloupcích. Parser na všechny tyto změny reagoval a pokaždé dosáhl jiné úspěšnosti. To znamená, že všechny tyto sloupce bere při trénování v úvahu.
+^ CPOS ^ POS ^ FEAT ^ UAS ^ LA ^ LAS ^ Model ^ Rysů ^ Čas učení ^
+| ano | ano | vibhakti + tam | 91.78 | 79.76 | 77.73 | 131 MB 9.12.2012 23:31:04 |  2 334 346 | 11 min |
+| ano | ano | ne | 88.47 | 77.52 | 75.55 | 56 MB 9.12.2012 23:32:15 | 1 130 847 | 12 min |
+| ano | ne | vibhakti + tam | 90.47 | 68.65 | 66.64 | 128 MB 10.12.2012 9:10:05 | 2 246 768 | 11 min |
+| ne | ano | vibhakti + tam | 88.11 | 77.83 | 74.62 | 127 MB 10.12.2012 9:13:08 | 2 234 096 | 14 min |
 ====== ICON 2009 NLP Tools Contest ======

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences