[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:icon [2009/10/28 18:51]
zeman Koordinace.
user:zeman:dz-parser:icon [2009/10/29 11:49]
zeman Volba transliteračního schématu.
Line 42: Line 42:
 | bn | 39.52 | 44.14 | | bn | 39.52 | 44.14 |
 | te | 73.75 | 76.89 | | te | 73.75 | 76.89 |
- 
- 
  
 ===== Analýza chyb ===== ===== Analýza chyb =====
Line 58: Line 56:
  
 <code>conll_pokusy.pl -l hi -t -g hi/dtest.mconll -s hi/dtest.voted.rconll | cstsfs.pl -s dzchyby > hi/dtest.voted.fs</code> <code>conll_pokusy.pl -l hi -t -g hi/dtest.mconll -s hi/dtest.voted.rconll | cstsfs.pl -s dzchyby > hi/dtest.voted.fs</code>
 +
 +Tady je ještě jedna alternativa (pozor, tohle je pro změnu okopírováno z&nbsp;Windows). Kromě toho, že jsem opravil některé chyby v&nbsp;''brahmi.pm'' (což se na volání nijak neprojeví), je teď nově možnost vybrat si ze dvou variant výstupní transliterace do latinky. ''-t sci'' vyvolá vědeckou transliteraci, která se hodí do článků, ale nehodí se pro čtení v&nbsp;Putty, protože používá kombinovanou diakritiku. Pro čtení v&nbsp;Putty použijeme ''-t putty''.
 +
 +<code>C:\Documents and Settings\Dan\Dokumenty\Lingvistika\Projekty\icon-parsing\work>set TOOLS="C:\Documen
 +ts and Settings\Dan\Dokumenty\Lingvistika\Projekty\padapt\parsingroot\tools"
 +C:\Documents and Settings\Dan\Dokumenty\Lingvistika\Projekty\icon-parsing\work>perl conll_pokusy.pl
 +-l te -t sci -g te/dtest.mconll -s te/dtest.voted.rconll | perl %TOOLS%/cstsfs.pl -s dzchyby > te/dt
 +est.voted.1.fs</code>
  
 Není pravda, že ze značky POS jednoznačně vyplývá značka chunku. Proto bych měl parserům poskytnout obě značky, může jim to pomoct. Např. v&nbsp;bengálské větě "(3) তবে / tabé সুদীপ / sudípa ওকে / óké একদিন / ékadina আড়ালে / áđa়াlé ডেকে / đéké বলেছিল / baléčhila কৌতূহল / kautúhala দেখালে / dékhálé তুমি / tumi উঁচুতে / um̃čuté উঠতে / uţhaté অনিমেষ / animéša" jsou slova "déké" a "dékhálé" značena jako "VGNF|VM" (zřejmě gerundium), zatímco "baléčhila" a "uthaté" jsou "VGF|VM". Pokud parser u všech vidí jen "VM", pak není divu, že v té větě nasekal několik divokých chyb. Není pravda, že ze značky POS jednoznačně vyplývá značka chunku. Proto bych měl parserům poskytnout obě značky, může jim to pomoct. Např. v&nbsp;bengálské větě "(3) তবে / tabé সুদীপ / sudípa ওকে / óké একদিন / ékadina আড়ালে / áđa়াlé ডেকে / đéké বলেছিল / baléčhila কৌতূহল / kautúhala দেখালে / dékhálé তুমি / tumi উঁচুতে / um̃čuté উঠতে / uţhaté অনিমেষ / animéša" jsou slova "déké" a "dékhálé" značena jako "VGNF|VM" (zřejmě gerundium), zatímco "baléčhila" a "uthaté" jsou "VGF|VM". Pokud parser u všech vidí jen "VM", pak není divu, že v té větě nasekal několik divokých chyb.

[ Back to the navigation ] [ Back to the content ]