Both sides previous revision
Previous revision
Next revision
|
Previous revision
|
user:zeman:ukoly:kontrola-pravopisu [2008/12/10 23:14] stepanek další copyright |
user:zeman:ukoly:kontrola-pravopisu [2013/10/08 08:09] (current) zeman quest |
====== Kontrola pravopisu ====== | ====== Kontrola pravopisu ====== |
//(úloha z počítačového zpracování přirozeného jazyka)// | {{template>spolecne}} |
| |
//Upozornění: Specifikace je detailnější (a tudíž více svazující) než bývá u zápočtových úloh zvykem. Ideálně by díky tomu měla tři řešení téže úlohy od tří různých lidí být zaměnitelná; šetří vám to také práci s dokumentací, která už je součástí zadání. Samozřejmě nelze vyloučit, že najdete dobrý důvod, aby něco bylo jinak než ve specifikaci; takové případy se mnou prosím [[zeman@ufal.mff.cuni.cz|konzultujte]]. Bez posvěcení se raději od specifikace zbytečně neodchylujte. Kdo bude místo na STDOUT čmárat do souboru, jehož cesta je zadrátována ve zdrojáku jako "C:\Documents and Settings\PanVopička\Dokumenty\tisícdalšíchadresářů\mujchytrysoubor.dat" apod., nejenže nedostane zápočet, ale bude podroben veřejnému zostuzení.// | |
| |
Kontrola pravopisu //(spell checking)// obvykle zahrnuje dvě podúlohy: | Kontrola pravopisu //(spell checking)// obvykle zahrnuje dvě podúlohy: |
- Skript ''guess.pl -s model'' načte statistiku ze souboru, jehož jméno dostane jako argument volby ''-s'', ze standardního vstupu pak načte seznam slov (každé na samostatném řádku) a na standardní výstup vypíše tentýž seznam, ale za každým slovem bude tabulátor a pak nejvýše deset návrhů na opravu slova, seřazených podle pravděpodobnosti. Návrhy jsou oddělené čárkami, pravděpodobnost je za každým návrhem uvedená v závorce. | - Skript ''guess.pl -s model'' načte statistiku ze souboru, jehož jméno dostane jako argument volby ''-s'', ze standardního vstupu pak načte seznam slov (každé na samostatném řádku) a na standardní výstup vypíše tentýž seznam, ale za každým slovem bude tabulátor a pak nejvýše deset návrhů na opravu slova, seřazených podle pravděpodobnosti. Návrhy jsou oddělené čárkami, pravděpodobnost je za každým návrhem uvedená v závorce. |
- Skript ''correct.pl -s model'' se volá podobně jako guess, ale na vstupu má souvislý text (nemusí být tokenizovaný). V něm najde chyby, nahradí je nejpravděpodobnější opravou a opravený text pošle na standardní výstup. | - Skript ''correct.pl -s model'' se volá podobně jako guess, ale na vstupu má souvislý text (nemusí být tokenizovaný). V něm najde chyby, nahradí je nejpravděpodobnější opravou a opravený text pošle na standardní výstup. |
| |
| |
===== Data a jazyk ===== | ===== Data a jazyk ===== |
| |
Pro testování skriptů dostanete k dispozici data v konkrétním jazyce, skripty však pište tak, aby na jazyce nezávisely. | Pro testování skriptů dostanete k dispozici data v konkrétním jazyce, skripty však pište tak, aby na jazyce nezávisely. |
| |
| V zimním semestru 2008/2009 a 2009/2010 je v nabídce angličtina. Anglická data si stáhněte z [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/kopr/en.train.txt.gz]]. |
| |
===== Další informace ===== | ===== Další informace ===== |
| |
Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://ufal.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán). | Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán). |
| |
Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním. | Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním. |
| |