Differences
This shows you the differences between two versions of the page.
Both sides previous revision
Previous revision
|
Next revision
Both sides next revision
|
user:zeman:dz-parser:icon [2009/10/28 18:51] zeman Koordinace. |
user:zeman:dz-parser:icon [2009/10/29 11:49] zeman Volba transliteračního schématu. |
| bn | 39.52 | 44.14 | | | bn | 39.52 | 44.14 | |
| te | 73.75 | 76.89 | | | te | 73.75 | 76.89 | |
| |
| |
| |
===== Analýza chyb ===== | ===== Analýza chyb ===== |
| |
<code>conll_pokusy.pl -l hi -t -g hi/dtest.mconll -s hi/dtest.voted.rconll | cstsfs.pl -s dzchyby > hi/dtest.voted.fs</code> | <code>conll_pokusy.pl -l hi -t -g hi/dtest.mconll -s hi/dtest.voted.rconll | cstsfs.pl -s dzchyby > hi/dtest.voted.fs</code> |
| |
| Tady je ještě jedna alternativa (pozor, tohle je pro změnu okopírováno z Windows). Kromě toho, že jsem opravil některé chyby v ''brahmi.pm'' (což se na volání nijak neprojeví), je teď nově možnost vybrat si ze dvou variant výstupní transliterace do latinky. ''-t sci'' vyvolá vědeckou transliteraci, která se hodí do článků, ale nehodí se pro čtení v Putty, protože používá kombinovanou diakritiku. Pro čtení v Putty použijeme ''-t putty''. |
| |
| <code>C:\Documents and Settings\Dan\Dokumenty\Lingvistika\Projekty\icon-parsing\work>set TOOLS="C:\Documen |
| ts and Settings\Dan\Dokumenty\Lingvistika\Projekty\padapt\parsingroot\tools" |
| C:\Documents and Settings\Dan\Dokumenty\Lingvistika\Projekty\icon-parsing\work>perl conll_pokusy.pl |
| -l te -t sci -g te/dtest.mconll -s te/dtest.voted.rconll | perl %TOOLS%/cstsfs.pl -s dzchyby > te/dt |
| est.voted.1.fs</code> |
| |
Není pravda, že ze značky POS jednoznačně vyplývá značka chunku. Proto bych měl parserům poskytnout obě značky, může jim to pomoct. Např. v bengálské větě "(3) তবে / tabé সুদীপ / sudípa ওকে / óké একদিন / ékadina আড়ালে / áđa়াlé ডেকে / đéké বলেছিল / baléčhila কৌতূহল / kautúhala দেখালে / dékhálé তুমি / tumi উঁচুতে / um̃čuté উঠতে / uţhaté অনিমেষ / animéša" jsou slova "déké" a "dékhálé" značena jako "VGNF|VM" (zřejmě gerundium), zatímco "baléčhila" a "uthaté" jsou "VGF|VM". Pokud parser u všech vidí jen "VM", pak není divu, že v té větě nasekal několik divokých chyb. | Není pravda, že ze značky POS jednoznačně vyplývá značka chunku. Proto bych měl parserům poskytnout obě značky, může jim to pomoct. Např. v bengálské větě "(3) তবে / tabé সুদীপ / sudípa ওকে / óké একদিন / ékadina আড়ালে / áđa়াlé ডেকে / đéké বলেছিল / baléčhila কৌতূহল / kautúhala দেখালে / dékhálé তুমি / tumi উঁচুতে / um̃čuté উঠতে / uţhaté অনিমেষ / animéša" jsou slova "déké" a "dékhálé" značena jako "VGNF|VM" (zřejmě gerundium), zatímco "baléčhila" a "uthaté" jsou "VGF|VM". Pokud parser u všech vidí jen "VM", pak není divu, že v té větě nasekal několik divokých chyb. |