[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:ukoly:trideni-jazyku [2007/10/28 12:06]
zeman Dokončeno.
user:zeman:ukoly:trideni-jazyku [2007/10/28 12:20]
zeman Neznámý jazyk.
Line 51: Line 51:
  
 Není-li zadána volba ''-i'' (jako ve druhém příkladu), čte se jediný dokument ze standardního vstupu. Na **standardní chybový výstup (STDERR)** se vypíše vyhodnocení jazyka celého dokumentu, tj. seznam známých jazyků, spolu s číselným vyjádřením podobnosti dokumentu každému jazyku, seřazený sestupně podle podobnosti. Pokud dokument není žádnému známému jazyku podobný dostatečně, před seznam se ještě napíše upozornění, že jde pravděpodobně o neznámý jazyk. Na standardní výstup (STDOUT) se vypíše dokument ze vstupu; to má smysl jen při volbách ''-xd'', ''-xp'' nebo ''-xw''. Není-li zadána volba ''-i'' (jako ve druhém příkladu), čte se jediný dokument ze standardního vstupu. Na **standardní chybový výstup (STDERR)** se vypíše vyhodnocení jazyka celého dokumentu, tj. seznam známých jazyků, spolu s číselným vyjádřením podobnosti dokumentu každému jazyku, seřazený sestupně podle podobnosti. Pokud dokument není žádnému známému jazyku podobný dostatečně, před seznam se ještě napíše upozornění, že jde pravděpodobně o neznámý jazyk. Na standardní výstup (STDOUT) se vypíše dokument ze vstupu; to má smysl jen při volbách ''-xd'', ''-xp'' nebo ''-xw''.
 +
 +
  
 ==== Volby -xd, -xp a -xw ==== ==== Volby -xd, -xp a -xw ====
Line 60: Line 62:
     * Každý odstavec (řádek) je obalen značkami ''<p>''...''</p>''.     * Každý odstavec (řádek) je obalen značkami ''<p>''...''</p>''.
     * Každé slovo (token) je obaleno značkami ''<w>''...''</w>''. Mezi těmito značkami se nevyskytují mezerové znaky (mezery, zalomení řádku aj.) Naopak vně těchto značek nemají mezerové znaky žádný zvláštní význam, takže může být např. každý token (včetně svých <w>...</w> značek) na samostatném řádku.     * Každé slovo (token) je obaleno značkami ''<w>''...''</w>''. Mezi těmito značkami se nevyskytují mezerové znaky (mezery, zalomení řádku aj.) Naopak vně těchto značek nemají mezerové znaky žádný zvláštní význam, takže může být např. každý token (včetně svých <w>...</w> značek) na samostatném řádku.
-    * Odstavce a slova mají ve svých počátečních značkách atribut ''id'', který je v rámci dokumentu jednoznačně identifikuje. Např. ''<p id="1"><is="1.1">''.+    * Odstavce a slova mají ve svých počátečních značkách atribut ''id'', který je v rámci dokumentu jednoznačně identifikuje. Např. ''<p id="1"><id="1.1">''.
     * Počáteční značka dokumentu, odstavce i slova může obsahovat atributy ''lang'' a ''lw'', které udávají jazyk dokumentu / odstavce / slova a váhu (míru podobnosti) jazyka. Volba ''-xd'' znamená, že tyto údaje mají být uvedeny u dokumentu. Volba ''-xp'' zapne rozpoznávání jazyka odstavců a implikuje taky volbu ''-xd''. Volba ''-xw'' znamená, že jazyk má být rozpoznáván na všech třech úrovních (dokument, odstavec i slovo).     * Počáteční značka dokumentu, odstavce i slova může obsahovat atributy ''lang'' a ''lw'', které udávají jazyk dokumentu / odstavce / slova a váhu (míru podobnosti) jazyka. Volba ''-xd'' znamená, že tyto údaje mají být uvedeny u dokumentu. Volba ''-xp'' zapne rozpoznávání jazyka odstavců a implikuje taky volbu ''-xd''. Volba ''-xw'' znamená, že jazyk má být rozpoznáván na všech třech úrovních (dokument, odstavec i slovo).
     * Nezapomeňte, že na výstupu v XML musíte zakódovat znaky "&", "<" a ">" jako entity ("&amp;", "&lt;", "&gt;").     * Nezapomeňte, že na výstupu v XML musíte zakódovat znaky "&", "<" a ">" jako entity ("&amp;", "&lt;", "&gt;").
Line 67: Line 69:
       * Struktura langs, patřící celému odstavci, se píše hned za počáteční značku odstavce.       * Struktura langs, patřící celému odstavci, se píše hned za počáteční značku odstavce.
       * Struktura langs, patřící slovu, se píše hned za **koncovou** značku slova (tedy ne dovnitř slova, ale za něj).       * Struktura langs, patřící slovu, se píše hned za **koncovou** značku slova (tedy ne dovnitř slova, ale za něj).
-      * Číselný parametr N říká, kolik nejpravděpodobnějších jazyků má být ve strukturách langs vypsáno. Je-li N="a" //(all)//, mají se vypsat všechny známé jazyky. Výchozí hodnotou N je 1, v tom případě se vůbec nevypisuje struktura langs a stačí atributy lang a lw uvnitř počáteční značky prvku. Pokud je N vyšší než 1 nebo "a", vypisují se jak atributy lang a lw uvnitř počáteční značky prvku, tak struktura langs. Pokud je N 0, nevypisuje se struktura langs ani atribut lw v počáteční značce prvku, vypisuje se pouze atribut lang.+      * Číselný parametr N říká, kolik nejpravděpodobnějších jazyků má být ve strukturách langs vypsáno. Je-li N="a" //(all)//, mají se vypsat všechny známé jazyky. Výchozí hodnotou N je 1, v tom případě se vůbec nevypisuje struktura langs a stačí atributy lang a lw uvnitř počáteční značky prvku. Pokud je N vyšší než 1 nebo "a", vypisují se jak atributy lang a lw uvnitř počáteční značky prvku, tak struktura langs. Pokud je N 0, nevypisuje se struktura langs ani atribut lw v počáteční značce prvku, vypisuje se pouze atribut lang. Pokud je jazyk neznámý a N > 1, potom atribut lang ve značce prvku obsahuje informaci, že jazyk je neznámý, ale struktura langs zobrazuje váhy známých jazyků pro posuzovaný prvek.
     * V příkladu si všimněte, že na začátku dokumentu XML se uvádí značka ''<?xml...?>'', ve které se mimo jiné musí říct, jaké kódování dokument používá. Spolu s jazykem tedy musíte rozpoznat i kódování.     * V příkladu si všimněte, že na začátku dokumentu XML se uvádí značka ''<?xml...?>'', ve které se mimo jiné musí říct, jaké kódování dokument používá. Spolu s jazykem tedy musíte rozpoznat i kódování.
  

[ Back to the navigation ] [ Back to the content ]