[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:ukoly:hranice-slov-a-vet [2008/06/16 21:31]
zeman Upřesnění tokenizace.
user:zeman:ukoly:hranice-slov-a-vet [2013/10/08 08:06] (current)
zeman quest
Line 1: Line 1:
 ====== Hranice slov a vět ====== ====== Hranice slov a vět ======
-//(úloha z počítačového zpracování přirozeného jazyka)// +{{template>spolecne}}
- +
-//Upozornění: Specifikace je detailnější (a tudíž více svazující) než bývá u zápočtových úloh zvykem. Ideálně by díky tomu měla tři řešení téže úlohy od tří různých lidí být zaměnitelná; šetří vám to také práci s dokumentací, která už je součástí zadání. Samozřejmě nelze vyloučit, že najdete dobrý důvod, aby něco bylo jinak než ve specifikaci; takové případy se mnou prosím [[zeman@ufal.mff.cuni.cz|konzultujte]]. Bez posvěcení se raději od specifikace zbytečně neodchylujte. Kdo bude místo na STDOUT čmárat do souboru, jehož cesta je zadrátována ve zdrojáku jako "C:\Documents and Settings\PanVopička\Dokumenty\tisícdalšíchadresářů\mujchytrysoubor.dat" apod., nejenže nedostane zápočet, ale bude podroben veřejnému zostuzení.//+
  
 Napište programy, které najdou v textu hranice slov a vět. K testování dostanete data v konkrétním jazyku, váš program by však měl být v maximální možné míře jazykově nezávislý. Vše, co potřebuje o konkrétním jazyku vědět, by měl být schopen se naučit z dat. (Z toho plyne, že vy daný jazyk ovládat nemusíte.) Napište programy, které najdou v textu hranice slov a vět. K testování dostanete data v konkrétním jazyku, váš program by však měl být v maximální možné míře jazykově nezávislý. Vše, co potřebuje o konkrétním jazyku vědět, by měl být schopen se naučit z dat. (Z toho plyne, že vy daný jazyk ovládat nemusíte.)
Line 10: Line 8:
   - Oddělovač vět. Čte ze standardního vstupu tokenizovaný text s vyznačenými hranicemi odstavců. Hledá a vyznačuje v něm hranice vět, výsledek píše na standardní výstup.   - Oddělovač vět. Čte ze standardního vstupu tokenizovaný text s vyznačenými hranicemi odstavců. Hledá a vyznačuje v něm hranice vět, výsledek píše na standardní výstup.
   - Program, který se z trénovacích dat, ve kterých jsou vyznačené věty, naučí statistiku, potřebnou pro zlepšení rozhodování o hranicích vět.   - Program, který se z trénovacích dat, ve kterých jsou vyznačené věty, naučí statistiku, potřebnou pro zlepšení rozhodování o hranicích vět.
- 
-Programy pište v Perlu a snažte se vyvarovat obratů, které by omezily přenositelnost mezi platformami (např. nevolejte externí programy, které se vyskytují pouze v Unixu, resp. pouze ve Windows). 
  
 ===== Tokenizátor ===== ===== Tokenizátor =====
Line 72: Line 68:
 ===== Další informace ===== ===== Další informace =====
  
-Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://ufal.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).+Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).
  
 Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním. Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním.

[ Back to the navigation ] [ Back to the content ]