[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:conll [2008/04/29 12:56]
zeman Doplnění německých a portugalských výsledků s výchozí konfigurací parseru.
user:zeman:dz-parser:conll [2009/03/03 16:28]
zeman Makefile.
Line 20: Line 20:
  
 ===== Zpracování ===== ===== Zpracování =====
 +
 +Zpracování má dvě části. První se týká přípravy dat, jejich převodu do formátu CSTS apod. Tato část není bezprostředně závislá na konkrétním parseru a odehrává se přímo ve složce s daty (''$DATA''). Druhá část zahrnuje natrénování parseru, otestování parseru na testovacích datech a vyhodnocení výsledků. Může se opakovat s různými parsery a s různým nastavením parametrů. Tato část se odehrává v pracovní složce (''$OUTPUT''). Na zpracování jsem si vytvořil i Makefile, ale bylo to v době, kdy jsem ještě obě části provozoval přímo ve složce s daty, takže cesty uvnitř Makefilu je nutné upravit. Makefile se nachází v ''/net/data/conll/2007/Makefile''.
  
 Každý jazyk zkouším zpracovat jednak s původními značkami, jednak se značkami převedenými do české sady PDT. Základní zpracování (bez přiřazování syntaktických značek) předpokládá pouze dva kroky: natrénování modelu na průběžných trénovacích datech a jeho otestování na průběžných testovacích datech. U základního zpracování používáme výchozí, jazykově nezávislé nastavení parseru. Každý jazyk zkouším zpracovat jednak s původními značkami, jednak se značkami převedenými do české sady PDT. Základní zpracování (bez přiřazování syntaktických značek) předpokládá pouze dva kroky: natrénování modelu na průběžných trénovacích datech a jeho otestování na průběžných testovacích datech. U základního zpracování používáme výchozí, jazykově nezávislé nastavení parseru.
Line 40: Line 42:
  
 ===== Výsledky ===== ===== Výsledky =====
 +
  
 ==== Výchozí nastavení ==== ==== Výchozí nastavení ====
Line 50: Line 53:
 | bg | 2006 | 72.3 | | bg | 2006 | 72.3 |
 | ca | 2007 | 72.7 | | ca | 2007 | 72.7 |
 +| ca | 2009 | 73.6 |
 | cs | 2006 | 64.1 | | cs | 2006 | 64.1 |
 | cs | 2007 | 69.1 | | cs | 2007 | 69.1 |
 +| cs | 2009 | 65.8 |
 | da | 2006 | 69.9 | | da | 2006 | 69.9 |
 | de | 2006 | 71.8 | | de | 2006 | 71.8 |
 +| de | 2009 | 72.3 |
 | el | 2007 | 65.0 | | el | 2007 | 65.0 |
 | en | 2007 | 70.6 | | en | 2007 | 70.6 |
 +| en | 2009 | 69.5 |
 +| es | 2009 | 71.8 |
 | eu | 2007 | 58.6 | | eu | 2007 | 58.6 |
 | hu | 2007 | 62.3 | | hu | 2007 | 62.3 |
 | it | 2007 | 71.5 | | it | 2007 | 71.5 |
 | ja | 2006 | 87.3 | | ja | 2006 | 87.3 |
 +| ja | 2009 | 83.2 |
 | nl | 2006 | 73.7 | | nl | 2006 | 73.7 |
 | pt | 2006 | 73.8 | | pt | 2006 | 73.8 |
Line 67: Line 76:
 | zh | 2006 | 69.9 | | zh | 2006 | 69.9 |
 | zh | 2007 | 69.0 | | zh | 2007 | 69.0 |
 +| zh | 2009 | 57.7 |
  
 Následující tabulka srovnává výsledky s původními značkami CoNLL a výsledky se značkami PDT. Data jsou dtest. Nastavení parseru je výchozí, tj. úprava značek ani selektivní lexikalizace není zapnuta. Poslední sloupec říká, zda je změna úspěšnosti statisticky významná podle McNemarova testu na úrovni 0,05 (χ<html><sup>2</sup></html> ≥ 3,84). Následující tabulka srovnává výsledky s původními značkami CoNLL a výsledky se značkami PDT. Data jsou dtest. Nastavení parseru je výchozí, tj. úprava značek ani selektivní lexikalizace není zapnuta. Poslední sloupec říká, zda je změna úspěšnosti statisticky významná podle McNemarova testu na úrovni 0,05 (χ<html><sup>2</sup></html> ≥ 3,84).
Line 187: Line 197:
 | zh | 2006 | 69.9 | 68.0 | horší | ne (2.623482) | | zh | 2006 | 69.9 | 68.0 | horší | ne (2.623482) |
 | zh | 2007 | 69.0 | 63.5 | horší | ano (23.875776) | | zh | 2007 | 69.0 | 63.5 | horší | ano (23.875776) |
- 
- 
  
 ==== 03: navíc zapnuté modelování pseudovalence ==== ==== 03: navíc zapnuté modelování pseudovalence ====
Line 245: Line 253:
 | zh | 2006 | 69.9 | 68.8 | horší | ne (0.757576) | | zh | 2006 | 69.9 | 68.8 | horší | ne (0.757576) |
 | zh | 2007 | 69.0 | 64.6 | horší | ano (14.266376) | | zh | 2007 | 69.0 | 64.6 | horší | ano (14.266376) |
 +
 +===== Která konfigurace je nejúspěšnější pro který jazyk? =====
 +
 +| Jazyk | Rok | orig df | pdt df | orig 03 | pdt 03 |
 +| ar | 2006 | 63.9 | 66.8 | 64.4 | 67.6 |
 +| ar | 2007 | 64.9 | 64.2 | 59.8 | 67.0 |
 +| bg | 2006 | 72.3 | 71.2 | 67.6 | 71.0 |
 +| ca | 2007 | 72.7 |      | 69.9 |      |
 +| cs | 2006 | 64.1 | 64.1 | 56.0 | 71.4 |
 +| cs | 2007 | 69.1 | 68.6 | 58.7 | 74.3 |
 +| da | 2006 | 69.9 | 70.5 | 68.3 | 69.8 |
 +| de | 2006 | 71.8 | 67.5 | 69.5 | 67.7 |
 +| el | 2007 | 65.0 |      | 67.2 |      |
 +| en | 2007 | 70.6 | 65.4 | 64.2 | 67.9 |
 +| eu | 2007 | 58.6 |      | 58.4 |      |
 +| hu | 2007 | 62.3 |      | 62.3 |      |
 +| it | 2007 | 71.5 |      | 72.2 |      |
 +| ja | 2006 | 87.3 |      | 74.9 |      |
 +| nl | 2006 | 73.7 |      | 73.2 |      |
 +| pt | 2006 | 73.8 | 76.4 | 73.5 | 76.4 |
 +| sl | 2006 | 58.7 |      | 63.8 |      |
 +| sv | 2006 | 71.0 | 72.6 | 71.0 | 73.2 |
 +| tr | 2007 | 64.6 |      | 65.2 |      |
 +| zh | 2006 | 69.9 | 68.4 | 67.5 | 68.8 |
 +| zh | 2007 | 69.0 | 63.7 | 64.6 | 64.6 |
  
 ===== Starší poznámky ===== ===== Starší poznámky =====

[ Back to the navigation ] [ Back to the content ]