Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser:icon [2012/12/10 17:37] zeman Redukce značek. |
user:zeman:dz-parser:icon [2012/12/10 17:44] zeman Odstraněny zastaralé výsledky. |
||
---|---|---|---|
Line 25: | Line 25: | ||
===== Výsledky ===== | ===== Výsledky ===== | ||
- | |||
- | * Na malých hindských datech (1000 vět) hlásí, že našel 397875 rysů (je to stejné pro projektivní i neprojektivní model). | ||
- | * Projektivní trénování trvalo 12 minut a model má necelých 6 MB. | ||
- | * Neprojektivní trénování trvalo 18 minut a velikost modelu je podobná. | ||
- | * Na velkých hindských datech (všechny věty) hlásí, že našel 2180868 rysů. | ||
- | * Neprojektivní trénování trvalo 4 hodiny a model má necelých 35 MB. | ||
- | * Přepracováno: | ||
- | * Auto: trénování 9 minut, 641112 rysů, model 32 MB. | ||
- | * Gold: trénování 20 minut, 2334346 rysů, model 131 MB. | ||
- | |||
- | mst nonproj o2 full | ||
- | Labeled | ||
- | Unlabeled attachment score: 20408 / 26416 * 100 = 77.26 % | ||
- | Label accuracy score: | ||
- | |||
- | mst nonproj o2 1000 | ||
- | Labeled | ||
- | Unlabeled attachment score: 20335 / 26416 * 100 = 76.98 % | ||
- | Label accuracy score: | ||
- | |||
- | Parser zřejmě použil jako part of speech sloupec CoNLL POS (nikoli CPOS nebo FEAT). | ||
- | |||
- | Přepracováno auto | ||
- | Labeled | ||
- | Unlabeled attachment score: 22848 / 26416 * 100 = 86.49 % | ||
- | Label accuracy score: | ||
- | |||
- | Přepracováno gold | ||
- | Labeled | ||
- | Unlabeled attachment score: 22568 / 26416 * 100 = 85.43 % | ||
- | Label accuracy score: | ||
==== Různé redukce značek ==== | ==== Různé redukce značek ==== | ||
Line 61: | Line 30: | ||
Je vhodné využívat formát dat CoNLL, který je i pro MST parser nyní výchozí. Při konverzi do původního formátu MST je nutné rozhodnout, co prohlásíme za morfologickou značku. Pokud nechceme zbytek informace zahodit, tak máme značky velmi dlouhé a neumožňujeme parseru vybrat si, jaká jejich část ho zajímá nejvíc. Naproti tomu ve formátu CoNLL bere MST parser 0.4.3b v úvahu všechny morfologické sloupce (CPOS, POS i FEAT), jak vyplývá z následujících pokusů. Zatím jsem nezkoumal, zda je schopen rozložit obsah sloupce FEAT na samostatné rysy. A nikdy jsem mu nedal kompletní rysy, vždy jsem je omezil buď na vibhakti + tam, nebo jsem je úplně vymazal. | Je vhodné využívat formát dat CoNLL, který je i pro MST parser nyní výchozí. Při konverzi do původního formátu MST je nutné rozhodnout, co prohlásíme za morfologickou značku. Pokud nechceme zbytek informace zahodit, tak máme značky velmi dlouhé a neumožňujeme parseru vybrat si, jaká jejich část ho zajímá nejvíc. Naproti tomu ve formátu CoNLL bere MST parser 0.4.3b v úvahu všechny morfologické sloupce (CPOS, POS i FEAT), jak vyplývá z následujících pokusů. Zatím jsem nezkoumal, zda je schopen rozložit obsah sloupce FEAT na samostatné rysy. A nikdy jsem mu nedal kompletní rysy, vždy jsem je omezil buď na vibhakti + tam, nebo jsem je úplně vymazal. | ||
- | Zlatý standard morfologie, trénování na 1000 větách. Střídavě jsem redukoval nebo mazal (nahrazoval podtržítkem) hodnoty v různých sloupcích. Parser na všechny tyto změny reagoval a pokaždé dosáhl jiné úspěšnosti. To znamená, že všechny tyto sloupce bere při trénování v úvahu. | + | Zlatý standard morfologie, trénování na 1000 větách, neprojektivní MST parser 2. řádu. Střídavě jsem redukoval nebo mazal (nahrazoval podtržítkem) hodnoty v různých sloupcích. Parser na všechny tyto změny reagoval a pokaždé dosáhl jiné úspěšnosti. To znamená, že všechny tyto sloupce bere při trénování v úvahu. |
^ CPOS ^ POS ^ FEAT ^ UAS ^ LA ^ LAS ^ Model ^ Rysů ^ Čas učení ^ | ^ CPOS ^ POS ^ FEAT ^ UAS ^ LA ^ LAS ^ Model ^ Rysů ^ Čas učení ^ |