[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:ukoly:minoritni-jazyky [2008/10/22 17:22]
zeman Syntaxe seznamu.
user:zeman:ukoly:minoritni-jazyky [2009/09/24 13:31] (current)
zeman Změna pořadí ukázek jazyků.
Line 1: Line 1:
 ====== Minoritní jazyky ====== ====== Minoritní jazyky ======
 +{{template>spolecne}}
  
 Toto je variace na úlohu [[Pavouk]], avšak pro jazyky, pro které je i na webu velký nedostatek dat, a proto vyžadují odlišné metody. Jsou to jazyky, pro které tu a tam někdo vyvěsil dokument, obvykle obklopený dokumenty v jiném jazyku, který na daném serveru převažuje. Prostým procházením webu byste se rychle octli v nepřátelském jazykovém prostředí a mohlo by trvat celé měsíce, než náhodou znova narazíte na dokument v hledaném jazyce. Musíte tedy svého robota napsat tak, aby komunikoval s jedním nebo několika vyhledávači (Google, Yahoo, Altavista...), kteří už web prošli za vás. Pozor, prostudujte si podmínky využívání těchto služeb, nebo si alespoň dejte záležet, aby chování vašeho robota připomínalo spíš běžného uživatele než robota (umělé pauzy mezi dotazy, robot se představuje jako některý známý prohlížeč...) Pokud totiž porušíte podmínky vyhledávačů, hrozí vám postih např. v podobě zablokování jejich služeb pro vaši IP adresu. Toto je variace na úlohu [[Pavouk]], avšak pro jazyky, pro které je i na webu velký nedostatek dat, a proto vyžadují odlišné metody. Jsou to jazyky, pro které tu a tam někdo vyvěsil dokument, obvykle obklopený dokumenty v jiném jazyku, který na daném serveru převažuje. Prostým procházením webu byste se rychle octli v nepřátelském jazykovém prostředí a mohlo by trvat celé měsíce, než náhodou znova narazíte na dokument v hledaném jazyce. Musíte tedy svého robota napsat tak, aby komunikoval s jedním nebo několika vyhledávači (Google, Yahoo, Altavista...), kteří už web prošli za vás. Pozor, prostudujte si podmínky využívání těchto služeb, nebo si alespoň dejte záležet, aby chování vašeho robota připomínalo spíš běžného uživatele než robota (umělé pauzy mezi dotazy, robot se představuje jako některý známý prohlížeč...) Pokud totiž porušíte podmínky vyhledávačů, hrozí vám postih např. v podobě zablokování jejich služeb pro vaši IP adresu.
Line 23: Line 24:
  
 Tato úloha je ve školním roce 2008-2009 vypisována poprvé, není proto ještě prověřeno, jak daleko se lze tímto způsobem dostat. Doporučuji vám pravidelně se mnou konzultovat problémy, na které narazíte. Na základě vašich zkušeností můžeme postupně doplňovat a zpřesňovat i zadání. Tato úloha je ve školním roce 2008-2009 vypisována poprvé, není proto ještě prověřeno, jak daleko se lze tímto způsobem dostat. Doporučuji vám pravidelně se mnou konzultovat problémy, na které narazíte. Na základě vašich zkušeností můžeme postupně doplňovat a zpřesňovat i zadání.
 +
 +Následují ukázky jazyků, které jsou nebo v minulosti byly v nabídce.
 +
 +===== 2009-2010 =====
 +
 +==== Běloruština (be) ====
 +
 +У познім 17 – пач. 19 ст. у Рэчы Паспалітай жывая старабеларуская гаворка захоўвалася толькі на беларускіх землях і ў простага народу, да пары — у драбнейшай шляхты, а культурнейшы слой грамадства, выхаваны ў польскай культуры, лічыў гэтую мову наогул непрыдатнай для выкарыстання ў літаратуры.[1] Узоры жывой старабеларускай гаворкі траплялі ў літаратуру пераважна ў творах «школьнай драмы», з якіх толькі адзін[2] быў пры сваім з'яўленні надрукаваны (сатыра «Вітанне на першы выезд з Каралеўца...», 1642), рэшта засталася ў рукапісах. Гэтыя творы, а дакладней, іх фрагменты, і з'яўляюцца практычна адзінымі ўзорамі жывой беларускай мовы таго часу. Мова іх падобная на народную канца 19 – пач. 20 ст., нямала паланізмаў. Запісаныя яны пераважна лацініцай, малая іх частка, што з Смаленскай зямлі — кірыліцай.[1] Апроч таго, некаторыя фанетычныя асаблівасці старабеларускай мовы захаваліся ў помніках пісьменства беларускіх татараў канца 16 – пач. 17 ст.[1] Гл.далей: «школьная драма», «Ай-Кітаб».
 +
 +==== Rétorománština (rm) ====
 +
 +Il rumantsch dal Grischun che vegn discurrì en il chantun Grischun fa part da las linguas neolatinas e vegn numnà en la lingua da mintgadi rumantsch (sursilvan: romontsch / puter: rumauntsch). Il term rumantsch dal Grischun vegn duvrà en la linguistica, perquai che il furlan ed il ladin da las Dolomitas vegnan da tscherts linguists era considerads sco appartegnend a la gruppa da varietads retorumantschas, sin basa da tschertas sumeglientschas tranter las trais gruppas dialectalas. Questa tesa è cuntraversa en la scienza (guarda: Questione Ladina).
 +
 +==== Romština (rom) v (česko-)slovenském pravopisu ====
 +
 +TERDŽIPEN le nenonacistickengre maršoske !! 6. 11. 2007 Andre rat tel 9. po 10. novembris andro 1938 andre Nemciko pes ačhiľas jekhbareder mariben po hebrejsko ňipos. Andre koja rat so pes ada džives vičhinel „Krištalikro rat“ has murdarde 91 Hebrejca teh aver ezera has zoraha bičhade andro koncentráka. Andro 10. novembris 2007 po 69.beršeskro džives kan pes o mariben ačhiľas, kamen o čechijske neonacistura te kerel maršos palo purano hebrejsko foros andre Praha. Kada maršos kamukeri kamen te kerel sar protestos, kaj o Čechy te na aven andro mariben so džal andro Irak . O čačipen pes džanel, kamen te sikhavel peskri zor so džal avri andalo neonacizmo.
 +
 +===== 2008-2009 =====
 +
 +==== Urijština ====
  
 Testovací jazyk je urijština (Oriya, úřední jazyk indického státu Urísa). Cíl je jasný: získat co největší sbírku textů v tomto jazyce. Pro praktickou použitelnost by to měly být alespoň desetitisíce slov, ale není jisté, kolik textů je na webu vlastně k dispozici. Tento jazyk má např. i svou mutaci Wikipedie (http://or.wikipedia.org/wiki/%E0%AC%AA%E0%AD%8D%E0%AC%B0%E0%AC%A7%E0%AC%BE%E0%AC%A8_%E0%AC%AA%E0%AD%83%E0%AC%B7%E0%AD%8D%E0%AC%A0%E0%AC%BE), ale obsah je téměř nulový, často prošpikovaný angličtinou či jinými jazyky. Testovací jazyk je urijština (Oriya, úřední jazyk indického státu Urísa). Cíl je jasný: získat co největší sbírku textů v tomto jazyce. Pro praktickou použitelnost by to měly být alespoň desetitisíce slov, ale není jisté, kolik textů je na webu vlastně k dispozici. Tento jazyk má např. i svou mutaci Wikipedie (http://or.wikipedia.org/wiki/%E0%AC%AA%E0%AD%8D%E0%AC%B0%E0%AC%A7%E0%AC%BE%E0%AC%A8_%E0%AC%AA%E0%AD%83%E0%AC%B7%E0%AD%8D%E0%AC%A0%E0%AC%BE), ale obsah je téměř nulový, často prošpikovaný angličtinou či jinými jazyky.
Line 35: Line 56:
  
 Pokud si chcete počíst, můžu vám také poskytnout skript, který převede urijské písmo do latinky. Pokud si chcete počíst, můžu vám také poskytnout skript, který převede urijské písmo do latinky.
 +

[ Back to the navigation ] [ Back to the content ]