[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:ukoly:brilluv-tagger [2009/10/01 14:28]
zeman Starý odkaz na Brillův tagger už nefunguje.
user:zeman:ukoly:brilluv-tagger [2013/10/08 08:13] (current)
zeman quest
Line 6: Line 6:
  
 Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a spíše platformově nezávislé - to se týká zejména těch, které přímo nevolají Brillův software. V případě potřeby ale můžete využít externí programy běžně dostupné v Linuxu, které nelze snadno nahradit příkazy Perlu (např. gzip). Skripty by neměly záviset na konkrétním rozmístění souborů na vašem disku. Samozřejmě budou muset vědět, kde máte vybalený tagger s příslušenstvím, k tomu použijte proměnnou prostředí ''BRILL''. (V Perlu dostupná jako ''$ENV{BRILL}''.) Dokumentace ke skriptům stačí uživatelská, tj. seznam skriptů, ke každému způsob volání a jednou dvěma větami popsáno, k čemu slouží. Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a spíše platformově nezávislé - to se týká zejména těch, které přímo nevolají Brillův software. V případě potřeby ale můžete využít externí programy běžně dostupné v Linuxu, které nelze snadno nahradit příkazy Perlu (např. gzip). Skripty by neměly záviset na konkrétním rozmístění souborů na vašem disku. Samozřejmě budou muset vědět, kde máte vybalený tagger s příslušenstvím, k tomu použijte proměnnou prostředí ''BRILL''. (V Perlu dostupná jako ''$ENV{BRILL}''.) Dokumentace ke skriptům stačí uživatelská, tj. seznam skriptů, ke každému způsob volání a jednou dvěma větami popsáno, k čemu slouží.
 +
  
  
Line 12: Line 13:
 Brillův software je napsán dílem v C, dílem v Perlu. Testován byl na Sun Sparc 10, takže doporučené prostředí je Unix, i když není zatím vyloučeno, že ho půjde přeložit i ve Windows. Vznikl už v roce 1994, takže na dnešním hardwaru by měl být rychlejší a nemusel by mít problémy s pamětí. Tehdy ale trénování na půl miliónu anglických slov trvalo několik dní. Brillův software je napsán dílem v C, dílem v Perlu. Testován byl na Sun Sparc 10, takže doporučené prostředí je Unix, i když není zatím vyloučeno, že ho půjde přeložit i ve Windows. Vznikl už v roce 1994, takže na dnešním hardwaru by měl být rychlejší a nemusel by mít problémy s pamětí. Tehdy ale trénování na půl miliónu anglických slov trvalo několik dní.
  
 +Poznámka k poznámce (1.10.2009): staré stránky Erika Brilla na Johns Hopkins University, odkud bylo dříve možné si tagger stáhnout, již nefungují a výše uvedený odkaz na Sourceforge vede na //novou implementaci// Brillova taggeru. Uvedené postřehy se na tuto implementaci pochopitelně nemusí vztahovat.
  
 ===== Otázky ===== ===== Otázky =====
Line 42: Line 43:
  
 Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu "slovo/značka", přičemž ani slovo, ani značka neobsahuje ani lomítko, ani mezeru. Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu "slovo/značka", přičemž ani slovo, ani značka neobsahuje ani lomítko, ani mezeru.
 +
  
 ==== Čeština ==== ==== Čeština ====
  
-Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "PFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data.+Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "NPFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data.
  
 ==== Švédština ==== ==== Švédština ====
Line 59: Line 61:
 ===== Další informace ===== ===== Další informace =====
  
-Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://ufal.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).+Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).
  
 Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci. Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci.
  

[ Back to the navigation ] [ Back to the content ]