[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:ukoly:morfologicka-gramatika-pro-chart-parser [2008/10/22 16:09]
zeman Doplněna přídavná jména a slovesa.
user:zeman:ukoly:morfologicka-gramatika-pro-chart-parser [2013/10/08 08:10] (current)
zeman quest
Line 1: Line 1:
 ====== Morfologická gramatika pro chart parser ====== ====== Morfologická gramatika pro chart parser ======
-//(úloha z počítačového zpracování přirozeného jazyka)// +{{template>spolecne}}
- +
-//Upozornění: Specifikace je detailnější (a tudíž více svazující) než bývá u zápočtových úloh zvykem. Ideálně by díky tomu měla tři řešení téže úlohy od tří různých lidí být zaměnitelná; šetří vám to také práci s dokumentací, která už je součástí zadání. Samozřejmě nelze vyloučit, že najdete dobrý důvod, aby něco bylo jinak než ve specifikaci; takové případy se mnou prosím [[zeman@ufal.mff.cuni.cz|konzultujte]]. Bez posvěcení se raději od specifikace zbytečně neodchylujte. Kdo bude místo na STDOUT čmárat do souboru, jehož cesta je zadrátována ve zdrojáku jako "C:\Documents and Settings\PanVopička\Dokumenty\tisícdalšíchadresářů\mujchytrysoubor.dat" apod., nejenže nedostane zápočet, ale bude podroben veřejnému zostuzení.//+
  
 Tato úloha má blízký vztah k úloze [[Chart parser]]. Parser je program, který s pomocí gramatiky umí rozebírat text a rozpoznávat v něm jednotlivé složky. Text může být slovo, které chceme rozložit na morfémy (morfologická analýza), nebo věta, kterou chceme rozložit na fráze podle větné stavby (syntaktická analýza). Zatímco cílem zmiňované úlohy Chart parser je napsat parser, cílem této úlohy je napsat gramatiku a další obslužné programy, které umožní chart parser opravdu využít. Aby bylo možné řešení obou úloh propojit, je nezbytné na obou stranách dodržet specifikaci. Formát souboru s gramatikou a formát výstupu z parseru (derivační strom ve zhuštěné podobě) je popsán u úlohy Chart parser. Tato úloha má blízký vztah k úloze [[Chart parser]]. Parser je program, který s pomocí gramatiky umí rozebírat text a rozpoznávat v něm jednotlivé složky. Text může být slovo, které chceme rozložit na morfémy (morfologická analýza), nebo věta, kterou chceme rozložit na fráze podle větné stavby (syntaktická analýza). Zatímco cílem zmiňované úlohy Chart parser je napsat parser, cílem této úlohy je napsat gramatiku a další obslužné programy, které umožní chart parser opravdu využít. Aby bylo možné řešení obou úloh propojit, je nezbytné na obou stranách dodržet specifikaci. Formát souboru s gramatikou a formát výstupu z parseru (derivační strom ve zhuštěné podobě) je popsán u úlohy Chart parser.
Line 44: Line 42:
  
 Hlavní část ale spočívá v interpretaci derivačního stromu způsobem, jaký jste si sami definovali pro svoji gramatiku. Tedy např. že přečtete preterminály, část za podtržítkem prohlásíte za lemma a zbytek za značku. Viz též příklad výše. Zatímco první část problému by mohl řešit kdokoliv i bez znalosti vaší gramatiky, tato část přímo souvisí s vaším řešením ostatních částí úlohy. Hlavní část ale spočívá v interpretaci derivačního stromu způsobem, jaký jste si sami definovali pro svoji gramatiku. Tedy např. že přečtete preterminály, část za podtržítkem prohlásíte za lemma a zbytek za značku. Viz též příklad výše. Zatímco první část problému by mohl řešit kdokoliv i bez znalosti vaší gramatiky, tato část přímo souvisí s vaším řešením ostatních částí úlohy.
 +
  
 ===== Požadovaná množina slov ===== ===== Požadovaná množina slov =====
  
-Na rozdíl od většiny jiných úloh tato vyžaduje vaši znalost zpracovávaného jazyka. Budete proto pracovat s češtinou. Úlohu lze řešit pro několik skupin českých slov.+Na rozdíl od většiny jiných úloh tato vyžaduje vaši znalost zpracovávaného jazyka. Budete proto pracovat s češtinou (pokud dostatečně ovládáte a preferujete jiný jazyk, kontaktujte mě a domluvíme se). Úlohu lze řešit pro několik skupin českých slov.
  
 I pokud si ze základní školy pamatujete všechny základní vzory, budete možná překvapeni, kolik drobných odchylek existuje. Proto vám doporučuji nahlédnout do některé mluvnice (např. Petr Karlík et al.: //Příruční mluvnice češtiny//. Nakladatelství Lidové noviny, Praha, 1996. ISBN 80-7106-134-4) I pokud si ze základní školy pamatujete všechny základní vzory, budete možná překvapeni, kolik drobných odchylek existuje. Proto vám doporučuji nahlédnout do některé mluvnice (např. Petr Karlík et al.: //Příruční mluvnice češtiny//. Nakladatelství Lidové noviny, Praha, 1996. ISBN 80-7106-134-4)
Line 77: Line 76:
 ===== Další informace ===== ===== Další informace =====
  
-Tento úkol (včetně zadání konkrétní skupiny slov) si můžete zarezervovat vyplněním formuláře na http://ufal.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).+Tento úkol (včetně zadání konkrétní skupiny slov) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).
  
 Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním. Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním.
Line 83: Line 82:
 V ideálním případě bude vaše gramatika na závěr otestována ve spojení s existujícím chart parserem, který vytvořili vaši předchůdci v minulých letech. Záleží na tom, jak přesně jste vy i oni splnili zadání, a zda tedy vaše řešení budou vzájemně kompatibilní. V ideálním případě bude vaše gramatika na závěr otestována ve spojení s existujícím chart parserem, který vytvořili vaši předchůdci v minulých letech. Záleží na tom, jak přesně jste vy i oni splnili zadání, a zda tedy vaše řešení budou vzájemně kompatibilní.
  
-V případě zájmu můžete dostat k dispozici pro pokusy chart parser a anotovaná data z českého korpusu, ze kterých lze vytáhnout přehled podstatných jmen a některých jejich tvarů.+V případě zájmu můžete dostat k dispozici pro pokusy chart parser a anotovaná data z českého korpusu, ze kterých lze vytáhnout přehled podstatných jmen (přídavných jmen, sloves...) a některých jejich tvarů.
  

[ Back to the navigation ] [ Back to the content ]