This is an old revision of the document!

Minoritní jazyky

Toto je variace na úlohu Pavouk, avšak pro jazyky, pro které je i na webu velký nedostatek dat, a proto vyžadují odlišné metody. Jsou to jazyky, pro které tu a tam někdo vyvěsil dokument, obvykle obklopený dokumenty v jiném jazyku, který na daném serveru převažuje. Prostým procházením webu byste se rychle octli v nepřátelském jazykovém prostředí a mohlo by trvat celé měsíce, než náhodou znova narazíte na dokument v hledaném jazyce. Musíte tedy svého robota napsat tak, aby komunikoval s jedním nebo několika vyhledávači (Google, Yahoo, Altavista…), kteří už web prošli za vás. Pozor, prostudujte si podmínky využívání těchto služeb, nebo si alespoň dejte záležet, aby chování vašeho robota připomínalo spíš běžného uživatele než robota (umělé pauzy mezi dotazy, robot se představuje jako některý známý prohlížeč…) Pokud totiž porušíte podmínky vyhledávačů, hrozí vám postih např. v podobě zablokování jejich služeb pro vaši IP adresu.

Podobně jako u obyčejného pavouka potřebujete alespoň nějaký vzorek textu v daném jazyce, abyste se měli od čeho odrazit. Podobně jako u pavouka si na tomto textu můžete natrénovat statistický model znaků (popř. n-tic znaků), abyste uměli ověřit, že nový dokument, který jste získali, je také v tomto jazyce. Navíc potřebujete znát klíčová slova, na která se budete ptát vyhledávače. Pochopitelně větší šanci na úspěch máte se slovy, která jsou v daném jazyce nejčastější. Na druhou stranu to ale musí být slova, která nejsou častá i v jiných jazycích. Např. ve španělštině je velmi časté slovo de, ale totéž slovo je časté i v dalších románských jazycích. Není proto pro španělštinu dostatečně typické, aby se vám vyplatilo ptát se právě na něj.

Hrubý nástin pracovního cyklu by mohl vypadat následovně:

Ve vzorovém dokumentu najděte nejčastější slova.
Zeptejte se na ně vyhledávače.
Dokumenty, které dostanete, roztřiďte na dobré (jsou v hledaném jazyce) a špatné (jsou v jiném jazyce).
Na dobrých dokumentech si přetrénujte rozpoznávač jazyka (víc dat = přesnější statistika) a také seznam častých slov.
Ze špatných dokumentů zjistěte nejčastější slova ve špatných jazycích.
Znova kontaktujte vyhledávač, tentokrát se ptejte na častá slova dobrého jazyka, která současně nejsou častá ve špatných jazycích. Celý postup opakujte.

Tato úloha je ve školním roce 2008-2009 vypisována poprvé, není proto ještě prověřeno, jak daleko se lze tímto způsobem dostat. Doporučuji vám pravidelně se mnou konzultovat problémy, na které narazíte. Na základě vašich zkušeností můžeme postupně doplňovat a zpřesňovat i zadání.

Testovací jazyk je urijština (Oriya, úřední jazyk indického státu Urísa). Cíl je jasný: získat co největší sbírku textů v tomto jazyce. Pro praktickou použitelnost by to měly být alespoň desetitisíce slov, ale není jisté, kolik textů je na webu vlastně k dispozici. Tento jazyk má např. i svou mutaci Wikipedie (http://or.wikipedia.org/wiki/%E0%AC%AA%E0%AD%8D%E0%AC%B0%E0%AC%A7%E0%AC%BE%E0%AC%A8_%E0%AC%AA%E0%AD%83%E0%AC%B7%E0%AD%8D%E0%AC%A0%E0%AC%BE), ale obsah je téměř nulový, často prošpikovaný angličtinou či jinými jazyky.

Vzor textu (z titulní stránky urijské wikipedie):

ଓଡ଼ିଆ ଉଇକିପେଡିଆ ଆପଣଙ୍କୁ ସ୍ବାଗତ କରୁଛି। ଏହି ଉନ୍ମୁକ୍ତ ଜ୍ଞାନକୋଷଟି ଇଣ୍ଟରନେଟ ଉପରେ ଆଧାରିତ ଏବଂ ଏହା ବିଶ୍ବର ୫୦ଟି ଭାଷାରେ ଉପଲବ୍ଧ । ଏହାକୁ ଆପଣ ମଧ୍ୟ ବର୍ଦ୍ଧିତ ଓ ପରିବର୍ତିତ କରିପାରିବେ ଏବଂ ଏହାକୁ ଉନ୍ନତ କରିବା ପାଇଁ ନିଜର ଅବଦାନ ଦେଇ ପାରିବେ । ଆପଣଙ୍କ ପସନ୍ଦର ବିଷୟ ଗୁଡିକୁ ଆପଣ ନୂତନ ଭାବେରେ ଯୋଗ କରିପାରିବେ କିମ୍ବା ଏହି ପୃଷ୍ଠାକୁ ସମ୍ପାଦନ କରି ଏହା ସହିତ ଯୋଗ କରିପାରିବ । ସମସ୍ତ ପାଠ ଗୁଡିକ GNU ମୁକ୍ତ ଦଲିଲକରଣ ଲାଇସେନ୍ସର ସର୍ତ୍ତ ଅଧୀନରେ ଉପଲବ୍ଧ । ତଥାପି, ଆପଣ ଏହାକୁ ମୁକ୍ତ ଭାବେର ଇଲେକ୍ଟ୍ରୋନିକ୍ସ ପ୍ରିଣ୍ଟ୍ କିମ୍ବା ଅନ୍ୟାନ୍ୟ ପ୍ରିଣ୍ଟର ମାଧ୍ୟମରେ ବ୍ୟବହାର କରିପାରିବ ।

K přečtení urijského písma potřebujete pravděpodobně doinstalovat fonty, zkuste třeba

Pokud si chcete počíst, můžu vám také poskytnout skript, který převede urijské písmo do latinky.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Minoritní jazyky