Table of Contents
Minoritní jazyky
spolecne
Toto je variace na úlohu Pavouk, avšak pro jazyky, pro které je i na webu velký nedostatek dat, a proto vyžadují odlišné metody. Jsou to jazyky, pro které tu a tam někdo vyvěsil dokument, obvykle obklopený dokumenty v jiném jazyku, který na daném serveru převažuje. Prostým procházením webu byste se rychle octli v nepřátelském jazykovém prostředí a mohlo by trvat celé měsíce, než náhodou znova narazíte na dokument v hledaném jazyce. Musíte tedy svého robota napsat tak, aby komunikoval s jedním nebo několika vyhledávači (Google, Yahoo, Altavista…), kteří už web prošli za vás. Pozor, prostudujte si podmínky využívání těchto služeb, nebo si alespoň dejte záležet, aby chování vašeho robota připomínalo spíš běžného uživatele než robota (umělé pauzy mezi dotazy, robot se představuje jako některý známý prohlížeč…) Pokud totiž porušíte podmínky vyhledávačů, hrozí vám postih např. v podobě zablokování jejich služeb pro vaši IP adresu.
Podobně jako u obyčejného pavouka potřebujete alespoň nějaký vzorek textu v daném jazyce, abyste se měli od čeho odrazit. Podobně jako u pavouka si na tomto textu můžete natrénovat statistický model znaků (popř. n-tic znaků), abyste uměli ověřit, že nový dokument, který jste získali, je také v tomto jazyce. Navíc potřebujete znát klíčová slova, na která se budete ptát vyhledávače. Pochopitelně větší šanci na úspěch máte se slovy, která jsou v daném jazyce nejčastější. Na druhou stranu to ale musí být slova, která nejsou častá i v jiných jazycích. Např. ve španělštině je velmi časté slovo de, ale totéž slovo je časté i v dalších románských jazycích. Není proto pro španělštinu dostatečně typické, aby se vám vyplatilo ptát se právě na něj.
Hrubý nástin pracovního cyklu by mohl vypadat následovně:
- Ve vzorovém dokumentu najděte nejčastější slova.
- Zeptejte se na ně vyhledávače.
- Dokumenty, které dostanete, roztřiďte na dobré (jsou v hledaném jazyce) a špatné (jsou v jiném jazyce).
- Na dobrých dokumentech si přetrénujte rozpoznávač jazyka (víc dat = přesnější statistika) a také seznam častých slov.
- Ze špatných dokumentů zjistěte nejčastější slova ve špatných jazycích.
- Znova kontaktujte vyhledávač, tentokrát se ptejte na častá slova dobrého jazyka, která současně nejsou častá ve špatných jazycích. Celý postup opakujte.
První průchody cyklem můžou vyžadovat lidskou intervenci.
Výstupem je:
- množina dokumentů
- model znaků, dvojic a trojic znaků
- model slov, dvojic a trojic slov
- 50 nejčastějších slov, která jsou málo častá v jiných jazycích
- 50 nejčastějších slov, která se v tomto jazyce nevyskytují
Tato úloha je ve školním roce 2008-2009 vypisována poprvé, není proto ještě prověřeno, jak daleko se lze tímto způsobem dostat. Doporučuji vám pravidelně se mnou konzultovat problémy, na které narazíte. Na základě vašich zkušeností můžeme postupně doplňovat a zpřesňovat i zadání.
Následují ukázky jazyků, které jsou nebo v minulosti byly v nabídce.
2009-2010
Běloruština (be)
У познім 17 – пач. 19 ст. у Рэчы Паспалітай жывая старабеларуская гаворка захоўвалася толькі на беларускіх землях і ў простага народу, да пары — у драбнейшай шляхты, а культурнейшы слой грамадства, выхаваны ў польскай культуры, лічыў гэтую мову наогул непрыдатнай для выкарыстання ў літаратуры.[1] Узоры жывой старабеларускай гаворкі траплялі ў літаратуру пераважна ў творах «школьнай драмы», з якіх толькі адзін[2] быў пры сваім з'яўленні надрукаваны (сатыра «Вітанне на першы выезд з Каралеўца…», 1642), рэшта засталася ў рукапісах. Гэтыя творы, а дакладней, іх фрагменты, і з'яўляюцца практычна адзінымі ўзорамі жывой беларускай мовы таго часу. Мова іх падобная на народную канца 19 – пач. 20 ст., нямала паланізмаў. Запісаныя яны пераважна лацініцай, малая іх частка, што з Смаленскай зямлі — кірыліцай.[1] Апроч таго, некаторыя фанетычныя асаблівасці старабеларускай мовы захаваліся ў помніках пісьменства беларускіх татараў канца 16 – пач. 17 ст.[1] Гл.далей: «школьная драма», «Ай-Кітаб».
Rétorománština (rm)
Il rumantsch dal Grischun che vegn discurrì en il chantun Grischun fa part da las linguas neolatinas e vegn numnà en la lingua da mintgadi rumantsch (sursilvan: romontsch / puter: rumauntsch). Il term rumantsch dal Grischun vegn duvrà en la linguistica, perquai che il furlan ed il ladin da las Dolomitas vegnan da tscherts linguists era considerads sco appartegnend a la gruppa da varietads retorumantschas, sin basa da tschertas sumeglientschas tranter las trais gruppas dialectalas. Questa tesa è cuntraversa en la scienza (guarda: Questione Ladina).
Romština (rom) v (česko-)slovenském pravopisu
TERDŽIPEN le nenonacistickengre maršoske !! 6. 11. 2007 Andre rat tel 9. po 10. novembris andro 1938 andre Nemciko pes ačhiľas jekhbareder mariben po hebrejsko ňipos. Andre koja rat so pes ada džives vičhinel „Krištalikro rat“ has murdarde 91 Hebrejca teh aver ezera has zoraha bičhade andro koncentráka. Andro 10. novembris 2007 po 69.beršeskro džives kan pes o mariben ačhiľas, kamen o čechijske neonacistura te kerel maršos palo purano hebrejsko foros andre Praha. Kada maršos kamukeri kamen te kerel sar protestos, kaj o Čechy te na aven andro mariben so džal andro Irak . O čačipen pes džanel, kamen te sikhavel peskri zor so džal avri andalo neonacizmo.
2008-2009
Urijština
Testovací jazyk je urijština (Oriya, úřední jazyk indického státu Urísa). Cíl je jasný: získat co největší sbírku textů v tomto jazyce. Pro praktickou použitelnost by to měly být alespoň desetitisíce slov, ale není jisté, kolik textů je na webu vlastně k dispozici. Tento jazyk má např. i svou mutaci Wikipedie (http://or.wikipedia.org/wiki/%E0%AC%AA%E0%AD%8D%E0%AC%B0%E0%AC%A7%E0%AC%BE%E0%AC%A8_%E0%AC%AA%E0%AD%83%E0%AC%B7%E0%AD%8D%E0%AC%A0%E0%AC%BE), ale obsah je téměř nulový, často prošpikovaný angličtinou či jinými jazyky.
Vzor textu (z titulní stránky urijské wikipedie):
ଓଡ଼ିଆ ଉଇକିପେଡିଆ ଆପଣଙ୍କୁ ସ୍ବାଗତ କରୁଛି। ଏହି ଉନ୍ମୁକ୍ତ ଜ୍ଞାନକୋଷଟି ଇଣ୍ଟରନେଟ ଉପରେ ଆଧାରିତ ଏବଂ ଏହା ବିଶ୍ବର ୫୦ଟି ଭାଷାରେ ଉପଲବ୍ଧ । ଏହାକୁ ଆପଣ ମଧ୍ୟ ବର୍ଦ୍ଧିତ ଓ ପରିବର୍ତିତ କରିପାରିବେ ଏବଂ ଏହାକୁ ଉନ୍ନତ କରିବା ପାଇଁ ନିଜର ଅବଦାନ ଦେଇ ପାରିବେ । ଆପଣଙ୍କ ପସନ୍ଦର ବିଷୟ ଗୁଡିକୁ ଆପଣ ନୂତନ ଭାବେରେ ଯୋଗ କରିପାରିବେ କିମ୍ବା ଏହି ପୃଷ୍ଠାକୁ ସମ୍ପାଦନ କରି ଏହା ସହିତ ଯୋଗ କରିପାରିବ । ସମସ୍ତ ପାଠ ଗୁଡିକ GNU ମୁକ୍ତ ଦଲିଲକରଣ ଲାଇସେନ୍ସର ସର୍ତ୍ତ ଅଧୀନରେ ଉପଲବ୍ଧ । ତଥାପି, ଆପଣ ଏହାକୁ ମୁକ୍ତ ଭାବେର ଇଲେକ୍ଟ୍ରୋନିକ୍ସ ପ୍ରିଣ୍ଟ୍ କିମ୍ବା ଅନ୍ୟାନ୍ୟ ପ୍ରିଣ୍ଟର ମାଧ୍ୟମରେ ବ୍ୟବହାର କରିପାରିବ ।
K přečtení urijského písma potřebujete pravděpodobně doinstalovat fonty, zkuste třeba
Pokud si chcete počíst, můžu vám také poskytnout skript, který převede urijské písmo do latinky.