[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
user:zeman:ukoly:pc-kimmo [2007/11/01 12:38]
zeman vytvořeno
user:zeman:ukoly:pc-kimmo [2013/10/08 08:15] (current)
zeman quest
Line 18: Line 18:
 ===== Data ===== ===== Data =====
  
-Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "PFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data.+Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "NPFL007.ltag". O registraci bych se měl dozvědět a poslat vám odkaz na data
 + 
 +V datech je ke každému slovu trojice informací, oddělených lomítky (jednotlivé trojice jsou pak oddělené mezerami): 
 +  * slovní tvar 
 +  * lemma (hlavní tvar, slovníkové heslo) 
 +  * morfologická značka (zakódovaná informace o slovním druhu a mluvnických kategoriích) 
 +V případě, že lomítko bylo součástí textu, je nahrazeno entitou "&slash;"; kvůli tomu je také znak "&" nahrazen entitou "&"
 + 
 +Vysvětlivky k morfologickým značkám najdete např. na adrese http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/en/m-layer/html/ch02s02s01.html, popř. též na http://quest.ms.mff.cuni.cz/cgi-bin/interset/index.pl?tagset=cs::pdt a http://quest.ms.mff.cuni.cz/cgi-bin/tagzplorer/index.pl?corpus=conll-2007-cs. 
 + 
 +Jestliže je vaším úkolem např. napsat morfologii sloves, potřebujete z dat vytáhnout všechna slovesa. Hledáte tedy trojice, ve kterých značka začíná písmenem V. Od každého slovesa vás zajímá jeho lemma - to je heslo, které budete chtít vložit do svého morfologického slovníku. Slovní tvar by vás mohl zajímat také, protože vám pomůže odhadnout časovací třídu, do které sloveso patří (třídu totiž ze značky nezjistíte). 
 + 
 +===== Skripty ===== 
 + 
 +Kromě zmíněných souborů pro PC-Kimmo byste měli odevzdat také Perlové skripty, které vám pomůžou s již zmiňovanou extrakcí dat z korpusu. Typicky zřejmě na standardním vstupu takového skriptu bude korpus, na standardním výstupu pak slovníkový soubor ve formátu .lex. 
 + 
 +Na rozdíl od jiných zápočtových úloh tento váš skript musí být jazykově závislý. Např. musí vědět, že slovesa, jejichž 3. osoba jednotného čísla končí na "-á", patří do jiné třídy, než ta, která končí na "-í". Taky musí vědět, jakou část lemmatu odtrhnout, abyste dostali kořen slova. Budete pracovat s češtinou, abyste měli šanci poznat, zda se program chová rozumně. Snažte se nicméně myslet na to, aby úprava programu pro jiný jazyk byla co nejméně náročná. Tomu se dá pomoci např. umístěním jazykově závislých parametrů do externího souboru místo do zdrojáku.
  
 ===== Další informace ===== ===== Další informace =====
  
-Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://ufal.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).+Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).
  
 Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci. Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci.
  

[ Back to the navigation ] [ Back to the content ]