Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:ukoly:pc-kimmo [2007/11/01 12:38] zeman vytvořeno |
user:zeman:ukoly:pc-kimmo [2011/10/13 23:21] zeman Zpřesnění informace o formátu dat. |
||
---|---|---|---|
Line 19: | Line 19: | ||
Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http:// | Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http:// | ||
+ | |||
+ | V datech je ke každému slovu trojice informací, oddělených lomítky (jednotlivé trojice jsou pak oddělené mezerami): | ||
+ | * slovní tvar | ||
+ | * lemma (hlavní tvar, slovníkové heslo) | ||
+ | * morfologická značka (zakódovaná informace o slovním druhu a mluvnických kategoriích) | ||
+ | V& | ||
+ | |||
+ | Vysvětlivky k morfologickým značkám najdete např. na adrese http:// | ||
+ | |||
+ | Jestliže je vaším úkolem např. napsat morfologii sloves, potřebujete z dat vytáhnout všechna slovesa. Hledáte tedy trojice, ve kterých značka začíná písmenem V. Od každého slovesa vás zajímá jeho lemma - to je heslo, které budete chtít vložit do svého morfologického slovníku. Slovní tvar by vás mohl zajímat také, protože vám pomůže odhadnout časovací třídu, do které sloveso patří (třídu totiž ze značky nezjistíte). | ||
+ | |||
+ | ===== Skripty ===== | ||
+ | |||
+ | Kromě zmíněných souborů pro PC-Kimmo byste měli odevzdat také Perlové skripty, které vám pomůžou s již zmiňovanou extrakcí dat z korpusu. Typicky zřejmě na standardním vstupu takového skriptu bude korpus, na standardním výstupu pak slovníkový soubor ve formátu .lex. | ||
+ | |||
+ | Na rozdíl od jiných zápočtových úloh tento váš skript musí být jazykově závislý. Např. musí vědět, že slovesa, jejichž 3. osoba jednotného čísla končí na " | ||
===== Další informace ===== | ===== Další informace ===== |