This is an old revision of the document!
Table of Contents
Plan 2011
Rekapitulace 2010
- na portalu prezentovany tri hry: Shannon Game (pro dva hrace), Place the Space (pro jednoho hrace), PlayCoref (pro jednoho a pro dva hrace)
- vsechny tri hratelne v anglictine s vetami a s odstavci z Sherlocka Holmese
- pro kazdou hru existuje demo cesky i anglicky a how to play pruvodce anglicky, pro Shannona i cesky
- prvni predstaveni portalu sirsi odborne verejnosti Play the Language Competition, december 2010
Tym
- Barbora Hladka
- Jiri Mirovsky
- Jan Kohout (implementace her)
- Vladimir Rovensky (sprava LGame)
Portal LGame
- Presun LGame na novy server.
- Sjednotit obsah ceske a anglicke lokalizace.
- Vyresit multijazykovost her - aby si uzivatel mohl pohodlne vybrat, v jakem jazyce chce zrovna hrat a aby sly nove jazykove verze snadno dodavat.
- Jake jazyky?
- Cestina a anglictina default.
- Paralelni texty.
- Zamyslet se nad designem her. Upravit/sjednotit/…
- Pro kazdou hru mit automatickou proceduru, ktera se nasadi jako (virtualni protihrac).
- Shannon Game
- Pro jednoho hrace.
- Place the Space
- Pridat thajstinu (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany).
- Implementovat verzi pro dva hrace.
- Podrobnosti na strance Place the space.
- PlayCoref
- Analyza dat z prosincove souteze.
- Nove hry
- Pojmenovane entity - viz PlayNE.
- Koherence vety/odstavce. Na vstupu prehazena slova vety, hrac je usporada dle jeho citu “spravne”. Na urovni dostavcu by se zamichalo s poradim vet.
- …
Prezentace, demonstrace, publikace
- GACR 2012 (po trech neuspesnych pokusech frustrace, ale … )
- PBML 96, rozsah: 20 stranek, deadline: May 30, 2011.
- IJCNLP, Chiang Mai, Thailand, Nov 8-13, System Demo, deadline: May 20, 2011.
- …
Motivation
Games with a purpose (GWAP)
- images, tunes, “nějaká” data z ESP Game a z Peekaboom jsou ke stažení (zalistuj trochu níž)
- ontologies (semantic web)
- Carolina Parada with Fred Jelinek
- text (náš LGame)
- Phrase Detectives anaphora resolution
- JM Docela pekny. Vzdycky se ptaji na jednu konkretni vec, to se podoba mymu puvodnimu navrhu. Chvilku jsem to zkousel, nevim ale, jak dlouho by me to bavilo, moc asi ne. Graficky je to nezajimavy (hra se odehrava jen v kousku obrazovky na obycejnem textu), tam je prostor ke zlepseni hratelnosti.
- BH
- Napad s detektivem se mi libi.
- Graficky je uvodni strana celkem pekna, ale na muj vkus je tam prilis mnoho informaci. Musim toho pomerne dost precist, abych mohla zacit hrat.
- Postradam dynamiku.
- Vzdy se ma najit “closest” - nevim, co se stane, kdyz nevyberu nejblizsi.
Related initiatives
- Amazon Mechanical Turk is an online labor market where workers are paid small amount of money to complete small tasks.
- ANAWIKI - pod timto projektem vznika Phrase Detectives - viz vyse
- Flash hry - jak pekne muze vypadat design hry
Papers/Videos to read/watch
- (Snow et al., 2008) Cheap and Fast - But is it Good? ... , Proceedings of the Conference on Empirical Methods in Natural Language Processing, Waikiki, Honolulu, Hawaii, 2008, pp. TBA.
affect recognition, word similarity, recognizing textual entailment, event temporal ordering, word sense disambiguation
; see discussion at Dolores' blog- Bara's summary:
- the units under the consideration: headlines (i.e. a single sentence), word-pairs, two sentences, paragraphs (I do not know what is the average length of them (sentences/words)?) So the documents are still real challenge:-))
- a term “crowdsourcing”
- their annotation tasks deal with labels of a broad scale. That is why they present a numerical (probabilistic) method to correct the non-expert annotations - I have to go through it!
- when comparing non-expert and expert annotations, one has to say who are the experts!!!! - I miss it in the paper.
Our ideas
Date: Fri, 10 Oct 2008 09:42:43 +0200, updated on Tue, 7 Apr 2009
From: Jiří Mírovský
napadly me dve dalsi jazykove hry, ale bohuzel nejsou lingvisticky uzitecne
(nenapada me, jak ta data vyuzit) - jen by mohly byt zabavne pro hrace a
naladit je na jine, mene zabavne lingvisticke hry.
Plus jedna, ktera by uzitecna byt mohla.
- Hraci dostanou vetu bez mezer mezi slovy a jejich ukolem je nadelat tam mezery, tedy provest tokenizaci. Jediny mozny uplatneni vidim na jazycich jako je thajstina, kde se mezery mezi slovy opravdu nepisou a na konferencich se prednasi o tom, jak to automaticky delat. viz Place the space
- Hraci dostanou vetu s prehazenejma slovama (kazdy jinak, nahodne). Jejich cilem je sestavit puvodni vetu. Hraji, dokud se neshodnou, vyhrava ten, kdo to mel driv. Tady uz vubec nevidim zadne vyuziti vlastnich dat, ale mohlo by to fungovat jako reklama na lingvisticke hry, protoze bych rekl, ze tohle hrace bude bavit. Aby to bylo spravedlive, algoritmus na nahodne prehazeni slov by musel byt chytry, aby to prehazel pro oba hrace ruzne, ale stejne obtizne.
- Speech reconstruction (nebo jak se tomu odborne rika) - hraci dostanou vetu z rozpoznavace reci a jejich ukolem je udelat z toho standardni ceskou vetu - bez koktani, opakovani apod.
- Koherence textu - hráči dostanou text s přeházenými větami - dostanou množinu vět. Cílem je sestavit původní text - seřadit věty. Lucie tvrdí, že to jde vždy, když je text dobře napsaný. Měla na to diplomku. Já tvrdím, že jsou případy, kdy to nejde rozhodnout. Ale hra by z toho mohla být pěkná.
- Projit si hry, ktere vydavaji velka vydavatelstvi (Hasbro, …) a hledat motivaci.
The PlayLang Project
Directory structure
Projekt využívá SVN repozitář, návod k použití zde:
https://svn.ms.mff.cuni.cz/projects/PlayLang
Samotná textová data nejsou ovšem součástí repozitáře (k pracovní kopii se jen přilinkují, viz návod v odkazu výše), k nalezení jsou zde:
/net/projects/playlang_shared
Data Format (and Tred Support) for the Project Play the Language
Date: Wed, 24 Dec 2008, updated Tue, 6 Jan 2009, again Fri, 27 Mar 2009
From: Jiří Mírovský
Návrh formátu pro playlang (minimálně playcoref): rozšíření m-roviny z PDT 2.0
Důvody:
- automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo
- rozdělení textu na věty je až na morfologické rovině
- automatické procedury pro předzpracování textů (např. detekce kandidátů pro koreferenci) budou lemmatizaci a morfologii nejspíš potřebovat
- morfologická rovina jde dobře zobrazit v Tredu
Schéma rozšířené m-roviny:
PML schéma je zde: {ROOT}/playcoref/tred_extension/
- obsahuje rozšíření o seznam struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); přidány už byly atributy:
- type - určuje, o jakou koreferenci jde: textual nebo grammatical
- lock - pro účely hry PlayCoref zamyká či odemyká jednotlivé šipky (hodnoty: locked/unlocked)
Převod dat PDT 2.0 do formátu playlang:
V adresáři {ROOT}/playcoref/scripts jsou skripty pro převod textové a gramatické koreference z tektogramatické roviny do rozšířené m-roviny:
- _change_mschema_to_playlang.sh - změní schéma m-souborů na mdata_schema_playlang.xml
- _coreference_extract_surface.ntred - prochází textovou a gramatickou oreferenci na t-rovině z projektu anotování rozšířené textové koreference a vypíše seznam koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-rovině; koreference mezi uzly, které nemají povrchový protějšek, se nebere v úvahu
- _coreference_add.ntred - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny
- _coreference_lock.ntred - koreferenční šipky opatří správnými hodnotami atributu lock
Aktuálně převedená data jsou v adresáři: {ROOT}/playcoref/data/files/02_bridging_playcoref/train-1
Zobrazení v Tredu:
Pro Tred existuje rozšíření Play the Language (playlang), nainstalovat lze přes Session→Manage Extensions.
(zdroj: {ROOT}/playcoref/tred_extension/playlang.mac)
Umožňuje otevřít rozšířené m-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových “stromů” a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně.
Pozor, při otvírání souborů s maskou *.m.gz v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na “všechny soubory”, aby byly soubory s touto maskou vidět.
Ovládání:
Ctrl+t - zapne/vypne zobrazení šipek koreference a zvýraznění prvků koreferenčních řetízků aktuálního slova v kontextových větách
Alt+p - přepne do čistě morfologického módu - nejsou zobrazeny kontextové “stromy” a věty, nezobrazují se koreferenční šipky
Alt+c - přepne do módu playcoref - zobrazují se kontextové “stromy” a věty, zobrazují se koreferenční šipky i slova
Aktuální uzel lze měnit jak kliknutím na uzel, tak i jednoduchým kliknutím na slovo v kontextových větách.