This is an old revision of the document!

HOT ISSUES
Games with a purpose (GWAP)
Related initiatives
Papers to read
Ideas
Video
Corpora outside their original context
The Project Directory
Data Format (and Tred Support) for the Project Play the Language

HOT ISSUES

26. dubna je termin na podani short papers na ACL 09. Nas prispevek bude obsahovat
- motivaci, proc games na anotaci textu
- koncepci portalu www.lgame.cz
  - Shannon game
  - Place the Space
  - PlayCoref, PlayNE, PlayDocLabel
  - sledovani uspesnosti automatickych procedur v zavislosti na datech
- dale viz https://wiki.ufal.ms.mff.cuni.cz/user:hladka:playcoref#acl-ijcnlp2009
PlayCoref
Place the Space

—-

Projit si hry, ktere vydavaji velka vydavatelstvi (Hasbro, …) a hledat motivaci.

—-

Ze setkani 28. listopadu 2008
- Pavel: muze zacit s experimenty
- Jirka: Prevod koreference v tektogramatickych stromech anotovanych Anjou a kol. do povrchu - viz nize oddil Data Format for the Project Play the Language
- Bara: najit studenty k implementaci prvnich dvou her z casti 'Ideas' a zadat je k reseni. Prvni hru jiz zacal implementovat student Jan Kohout.
- Trac system - jak to s nim je?
  - Documentation
- Pamatovat si:
  - Pracovat s texty v kodovani UTF-8.

Games with a purpose (GWAP)

images, tunes, “nějaká” data z ESP Game a z Peekaboom jsou ke stažení (zalistuj trochu níž)
ontologies (semantic web)
Carolina Parada with Fred Jelinek
text (náš LGame)

Open Mind
Amazon Mechanical Turk is an online labor market where workers are paid small amount of money to complete small tasks.
Yahoo answers
ANAWIKI - Phrase Detectives
- JM: Docela pekny. Vzdycky se ptaji na jednu konkretni vec, to se podoba mymu
  puvodnimu navrhu. Chvilku jsem to zkousel, nevim ale, jak dlouho by me to
  bavilo, moc asi ne. Graficky je to nezajimavy (hra se odehrava jen v kousku
  obrazovky na obycejnem textu), tam je prostor ke zlepseni hratelnosti.

Papers to read

(Snow et al., 2008) Cheap and Fast - But is it Good? ... , Proceedings of the Conference on Empirical Methods in Natural Language Processing, Waikiki, Honolulu, Hawaii, 2008, pp. TBA. affect recognition, word similarity, recognizing textual entailment, event temporal ordering, word sense disambiguation; see discussion at Dolores' blog
- Bara's summary:
  - the units under the consideration: headlines (i.e. a single sentence), word-pairs, two sentences, paragraphs (I do not know what is the average length of them (sentences/words)?) So the documents are still real challenge:-))
  - a term “crowdsourcing”
  - their annotation tasks deal with labels of a broad scale. That is why they present a numerical (probabilistic) method to correct the non-expert annotations - I have to go through it!
  - when comparing non-expert and expert annotations, one has to say who are the experts!!!! - I miss it in the paper.
Coling 2008 workshop on Human judgments in Computational Linguistics.

Ideas

Date: Fri, 10 Oct 2008 09:42:43 +0200
From: Jiří Mírovský

napadly me dve dalsi jazykove hry, ale bohuzel nejsou lingvisticky uzitecne
(nenapada mne, jak ta data vyuzit) - jen by mohly byt zabavne pro hrace a
naladit je na jine, mene zabavne lingvisticke hry.
Plus jedna, ktera by uzitecna byt mohla.

Hraci dostanou vetu bez mezer mezi slovy a jejich ukolem je nadelat tam mezery, tedy provest tokenizaci. Jediny mozny uplatneni vidim na jazycich jako je thajstina, kde se mezery mezi slovy opravdu nepisou a na konferencich se prednasi o tom, jak to automaticky delat.
Hraci dostanou vetu s prehazenejma slovama (kazdy jinak, nahodne). Jejich cilem je sestavit puvodni vetu. Hraji, dokud se neshodnou, vyhrava ten, kdo to mel driv. Tady uz vubec nevidim zadne vyuziti vlastnich dat, ale mohlo by to fungovat jako reklama na lingvisticke hry, protoze bych rekl, ze tohle hrace bude bavit. Aby to bylo spravedlive, algoritmus na nahodne prehazeni slov by musel byt chytry, aby to prehazel pro oba hrace ruzne, ale stejne obtizne.
Speech reconstruction (nebo jak se tomu odborne rika) - hraci dostanou vetu z rozpoznavace reci a jejich ukolem je udelat z toho standardni ceskou vetu - bez koktani, opakovani apod.

Video

Corpora outside their original context

The Project Directory

/net/work/projects/playlang/

podadresář playcoref

Data Format (and Tred Support) for the Project Play the Language

Date: Wed, 24 Dec 2008, updated Tue, 6 Jan 2009
From: Jiří Mírovský

Návrh formátu pro playlang (minimálně playcoref): rozšíření m-roviny z PDT 2.0

Důvody:

automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo
rozdělení textu na věty je až na morfologické rovině
automatické procedury pro předzpracování textů (např. detekce kandidátů pro koreferenci) budou lemmatizaci a morfologii nejspíš potřebovat
morfologická rovina jde dobře zobrazit v Tredu

Schéma rozšířené m-roviny:

/net/work/projects/playlang/playcoref/tred_extension/mdata_schema_playlang.xml

obsahuje rozšíření o seznam struktur pro anotaci textové koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference)

Převod dat PDT 2.0 do formátu playlang:

V adresáři /net/work/projects/playlang/playcoref/data/scripts jsou skripty pro převod textové koreference z tektogramatické roviny do rozšířené m-roviny:

_change_mschema_to_playlang.sh - změní schéma m-souborů na mdata_schema_playlang.xml
new_textual_coreference_extract.ntred - prochází textovou koreferenci na t-rovině z projektu anotování rozšířené textové koreference a vypíše seznam textově koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-rovině; koreference mezi uzly, které nemají povrchový protějšek, se nebere v úvahu
textual_coreference_add.ntred - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny

Převedl jsem data z projektu anotování rozšířené koreference do rozšířené m-roviny. K dispozici jsou data train-1:
/net/work/projects/playlang/playcoref/data/files/02_bridging_playcoref/train-1

Zobrazení v Tredu:

Pro Tred existuje rozšíření Play the Language (playlang), nainstalovat lze přes Session→Manage Extensions.
(zdroj: /net/work/projects/playlang/playcoref/tred_extension/playlang.mac)
Umožňuje otevřít rozšířené m-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových “stromů” a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo.
Pozor, při otvírání souborů s maskou *.m.gz v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na “všechny soubory”, aby byly soubory s touto maskou vidět.

Ovládání:
Ctrl+t - zapne/vypne zobrazení šipek textové koreference a zvýraznění prvků koreferenčních řetízků aktuálního slova v kontextových větách
Alt+p - přepne do čistě morfologického módu - nejsou zobrazeny kontextové “stromy” a věty, nezobrazují se koreferenční šipky
Alt+c - přepne do módu playcoref - zobrazují se kontextové “stromy” a věty, zobrazují se koreferenční šipky i slova

Aktuální uzel lze měnit jak kliknutím na uzel, tak i jednoduchým kliknutím na slovo v kontextových větách.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Table of Contents

HOT ISSUES

Games with a purpose (GWAP)

Papers to read

Ideas

Video

Corpora outside their original context

The Project Directory

Data Format (and Tred Support) for the Project Play the Language

Návrh formátu pro playlang (minimálně playcoref): rozšíření m-roviny z PDT 2.0

Schéma rozšířené m-roviny:

Převod dat PDT 2.0 do formátu playlang:

Zobrazení v Tredu:

Institute of Formal and Applied Linguistics Wiki

Table of Contents

HOT ISSUES

Games with a purpose (GWAP)

Related initiatives

Papers to read

Ideas

Video

Corpora outside their original context

The Project Directory

Data Format (and Tred Support) for the Project Play the Language

Návrh formátu pro playlang (minimálně playcoref): rozšíření m-roviny z PDT 2.0

Schéma rozšířené m-roviny:

Převod dat PDT 2.0 do formátu playlang:

Zobrazení v Tredu: