Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:playlang [2008/12/24 10:14] mirovsky |
user:hladka:playlang [2011/01/04 11:46] hladka |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== TO DO ====== | ||
- | * Ze setkani 28. listopadu 2008 | ||
- | * Pavel: muze zacit s experimenty | ||
- | * Jirka: Prevod koreference v tektogramatickych stromech anotovanych Anjou a kol. do povrchu - viz nize oddil | ||
- | * 8-) Bara: najit studenty k implementaci prvnich dvou her z casti ' | ||
- | * Trac system - jak to s nim je? | ||
- | * [[http:// | ||
- | * Pamatovat si: | ||
- | * Pracovat s texty v kodovani utf-8. | ||
- | ====== Games with a purpose (GWAP) | + | ====== Plan 2011 ====== |
- | | + | |
+ | ==== Rekapitulace ==== | ||
+ | * na portalu prezentovany tri hry: Shannon Game (pro dva hrace), Place the Space (pro jednoho hrace), PlayCoref (pro jednoho a pro dva hrace) | ||
+ | * vsechny tri hratelne v anglictine s vetami a s odstavci z Sherlocka Holmese | ||
+ | * pro kazdou hru existuje demo cesky i anglicky a //how to play// pruvodce anglicky, pro Shannona i cesky | ||
+ | * prvni predstaveni portalu sirsi odborne verejnosti [[Play the Language Competition]], | ||
+ | |||
+ | ==== 2011 ==== | ||
+ | === Tym === | ||
+ | * Barbora Hladka | ||
+ | * Jiri Mirovsky | ||
+ | * Jan Kohout (implementace her) | ||
+ | * Vladimir Rovensky (sprava LGame) | ||
+ | |||
+ | === Portal LGame === | ||
+ | * Presun LGame na novy server. | ||
+ | * Sjednotit obsah ceske a anglicke lokalizace. | ||
+ | * Vyresit multijazykovost her - aby si uzivatel mohl pohodlne vybrat, v jakem jazyce chce zrovna hrat a aby sly nove jazykove verze snadno dodavat. | ||
+ | * Jake jazyky? | ||
+ | * Cestina a anglictina default. | ||
+ | * Paralelni texty. | ||
+ | * Zamyslet se nad designem her. Upravit/ | ||
+ | * Pro kazdou hru mit automatickou proceduru, ktera se nasadi jako (virtualni protihrac). | ||
+ | * Shannon Game | ||
+ | * Pro jednoho hrace. | ||
+ | * Place the Space | ||
+ | * Pridat thajstinu (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). | ||
+ | * Implementovat verzi pro dva hrace. | ||
+ | * Podrobnosti na strance [[Place the space]]. | ||
+ | * PlayCoref | ||
+ | * Analyza dat z prosincove souteze. | ||
+ | * Nove hry | ||
+ | * Pojmenovane entity - viz [[PlayNE]]. | ||
+ | * Koherence vety/ | ||
+ | * ... | ||
+ | |||
+ | === Prezentace, demonstrace, | ||
+ | * GACR 2012 (po trech neuspesnych pokusech frustrace, ale ... ) | ||
+ | * PBML 96, rozsah: 20 stranek, deadline: May 30, 2011. | ||
+ | * [[http:// | ||
+ | * ... | ||
+ | |||
+ | |||
+ | |||
+ | ====== Motivation ====== | ||
+ | |||
+ | ===== Games with a purpose (GWAP) ===== | ||
+ | | ||
| | ||
+ | | ||
| | ||
+ | | ||
+ | * **JM** Docela pekny. Vzdycky se ptaji na jednu konkretni vec, to se podoba mymu puvodnimu navrhu. Chvilku jsem to zkousel, nevim ale, jak dlouho by me to bavilo, moc asi ne. Graficky je to nezajimavy (hra se odehrava jen v kousku obrazovky na obycejnem textu), tam je prostor ke zlepseni hratelnosti. | ||
+ | * **BH** | ||
+ | - Napad s detektivem se mi libi. | ||
+ | - Graficky je uvodni strana celkem pekna, ale na muj vkus je tam prilis mnoho informaci. Musim toho pomerne dost precist, abych mohla zacit hrat. | ||
+ | - Postradam dynamiku. | ||
+ | - Vzdy se ma najit " | ||
+ | * [[http:// | ||
- | ====== Related initiatives | + | |
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Related initiatives ===== | ||
| | ||
- | *[[http://lingo.clsp.jhu.edu/shannon/game.html|Carolina Parada]] with Fred Jelinek | + | *[[https://www.mturk.com/ |
- | * Comments sent to Carolina: TBA | + | |
+ | | ||
+ | | ||
- | ====== Papers to read ====== | ||
- | * (Snow et al., 2008) [[http:// | ||
- | * [[http:// | ||
- | ====== | + | |
- | Date: Fri, 10 Oct 2008 09:42:43 +0200 | + | |
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Papers/ | ||
+ | * (Snow et al., 2008) [[http:// | ||
+ | * Bara's summary: | ||
+ | * the units under the consideration: | ||
+ | * a term " | ||
+ | * their annotation tasks deal with labels of a broad scale. That is why they present a numerical (probabilistic) | ||
+ | * when comparing non-expert and expert annotations, | ||
+ | * [[http:// | ||
+ | | ||
+ | | ||
+ | |||
+ | ====== Our ideas ====== | ||
+ | Date: Fri, 10 Oct 2008 09:42:43 +0200, updated on Tue, 7 Apr 2009 | ||
From: Jiří Mírovský | From: Jiří Mírovský | ||
napadly me dve dalsi jazykove hry, ale bohuzel nejsou lingvisticky uzitecne | napadly me dve dalsi jazykove hry, ale bohuzel nejsou lingvisticky uzitecne | ||
- | (nenapada | + | (nenapada |
naladit je na jine, mene zabavne lingvisticke hry. | naladit je na jine, mene zabavne lingvisticke hry. | ||
Plus jedna, ktera by uzitecna byt mohla. | Plus jedna, ktera by uzitecna byt mohla. | ||
- | - Hraci dostanou vetu bez mezer mezi slovy a jejich ukolem je nadelat tam mezery, tedy provest tokenizaci. Jediny mozny uplatneni vidim na jazycich jako je thajstina, kde se mezery mezi slovy opravdu nepisou a na konferencich se prednasi o tom, jak to automaticky delat. | + | - Hraci dostanou vetu bez mezer mezi slovy a jejich ukolem je nadelat tam mezery, tedy provest tokenizaci. Jediny mozny uplatneni vidim na jazycich jako je thajstina, kde se mezery mezi slovy opravdu nepisou a na konferencich se prednasi o tom, jak to automaticky delat. |
- Hraci dostanou vetu s prehazenejma slovama (kazdy jinak, nahodne). Jejich cilem je sestavit puvodni vetu. Hraji, dokud se neshodnou, vyhrava ten, kdo to mel driv. Tady uz vubec nevidim zadne vyuziti vlastnich dat, ale mohlo by to fungovat jako reklama na lingvisticke hry, protoze bych rekl, ze tohle hrace bude bavit. Aby to bylo spravedlive, | - Hraci dostanou vetu s prehazenejma slovama (kazdy jinak, nahodne). Jejich cilem je sestavit puvodni vetu. Hraji, dokud se neshodnou, vyhrava ten, kdo to mel driv. Tady uz vubec nevidim zadne vyuziti vlastnich dat, ale mohlo by to fungovat jako reklama na lingvisticke hry, protoze bych rekl, ze tohle hrace bude bavit. Aby to bylo spravedlive, | ||
- Speech reconstruction (nebo jak se tomu odborne rika) - hraci dostanou vetu z rozpoznavace reci a jejich ukolem je udelat z toho standardni ceskou vetu - bez koktani, opakovani apod. | - Speech reconstruction (nebo jak se tomu odborne rika) - hraci dostanou vetu z rozpoznavace reci a jejich ukolem je udelat z toho standardni ceskou vetu - bez koktani, opakovani apod. | ||
+ | - Koherence textu - hráči dostanou text s přeházenými větami - dostanou množinu vět. Cílem je sestavit původní text - seřadit věty. Lucie tvrdí, že to jde vždy, když je text dobře napsaný. Měla na to diplomku. Já tvrdím, že jsou případy, kdy to nejde rozhodnout. Ale hra by z toho mohla být pěkná. | ||
- | ====== | + | * Projit si hry, ktere vydavaji velka vydavatelstvi (Hasbro, ...) a hledat motivaci. |
- | *[[http:// | + | |
- | *[[http://research.google.com/roundtable/HLT.html|Google Technology RoundTable, Mike Cohen, Franz Josef Och]] | + | |
+ | ====== | ||
+ | |||
+ | ===== Directory structure | ||
+ | |||
+ | Projekt využívá SVN repozitář, návod k použití zde: | ||
+ | [[https://svn.ms.mff.cuni.cz/projects/PlayLang|https:// | ||
+ | |||
+ | Samotná textová data nejsou ovšem součástí repozitáře (k pracovní kopii se jen přilinkují, | ||
- | ====== Corpora outside their original context ====== | + | /net/projects/playlang_shared |
- | | + | |
- | | + | |
- | ====== Data Format for the Projetct | + | ===== Data Format |
- | Date: Wed, 24 Dec 2008 | + | Date: Wed, 24 Dec 2008, updated Tue, 6 Jan 2009, again Fri, 27 Mar 2009 |
From: Jiří Mírovský | From: Jiří Mírovský | ||
- | ==== Návrh formátu pro playlang (minimálně playcoref): rozšíření m-roviny z PDT 2.0 ==== | + | === Návrh formátu pro playlang (minimálně playcoref): rozšíření m-roviny z PDT 2.0 === |
Důvody: | Důvody: | ||
* automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo | * automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo | ||
Line 61: | Line 145: | ||
==== Schéma rozšířené m-roviny: ==== | ==== Schéma rozšířené m-roviny: ==== | ||
- | / | + | PML schéma je zde: {ROOT}/ |
- | * obsahuje rozšíření o seznam struktur pro anotaci | + | * obsahuje rozšíření o seznam struktur pro anotaci koreference; |
+ | * type - určuje, o jakou koreferenci jde: textual nebo grammatical | ||
+ | * lock - pro účely hry PlayCoref zamyká či odemyká jednotlivé šipky (hodnoty: locked/ | ||
- | ==== Převod dat PDT 2.0 do formátu playlang: | + | === Převod dat PDT 2.0 do formátu playlang: === |
- | V adresáři | + | V adresáři |
* _change_mschema_to_playlang.sh - změní schéma m-souborů na mdata_schema_playlang.xml | * _change_mschema_to_playlang.sh - změní schéma m-souborů na mdata_schema_playlang.xml | ||
- | * new_textual_coreference_extract.ntred - prochází textovou | + | * _coreference_extract_surface.ntred - prochází textovou |
- | * textual_coreference_add.ntred - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny | + | * _coreference_add.ntred - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny |
+ | * _coreference_lock.ntred - koreferenční šipky opatří správnými hodnotami atributu lock | ||
- | Převedl jsem data z projektu anotování rozšířené koreference do rozšířené m-roviny. K dispozici jsou data train-1: | + | Aktuálně převedená |
- | / | + | |
==== Zobrazení v Tredu: ==== | ==== Zobrazení v Tredu: ==== | ||
- | Zbývá dodělat | + | Pro Tred existuje |
+ | (zdroj: {ROOT}/ | ||
+ | Umožňuje otevřít | ||
+ | Pozor, při otvírání souborů | ||
+ | |||
+ | Ovládání: | ||
+ | **Ctrl+t** - zapne/vypne zobrazení šipek koreference a zvýraznění prvků koreferenčních řetízků aktuálního slova v kontextových větách | ||
+ | **Alt+p** - přepne do čistě morfologického módu - nejsou zobrazeny kontextové " | ||
+ | **Alt+c** - přepne do módu // | ||
+ | |||
+ | Aktuální uzel lze měnit jak kliknutím na uzel, tak i jednoduchým kliknutím na slovo v kontextových větách. |