Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:hladka:playlang [2009/02/03 13:02] hladka |
user:hladka:playlang [2011/03/02 09:54] (current) hladka |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== | + | |
- | * **26. dubna** je termin na podani short papers na [[http://www.acl-ijcnlp-2009.org/|ACL 09]]. Nas prispevek bude obsahovat | + | |
- | * motivaci, proc games na anotaci textu | + | ====== |
- | * koncepci | + | |
- | * Shannon | + | |
- | | + | |
- | | + | ==== Rekapitulace 2010 ==== |
- | | + | |
- | * PlayCoref podrobneji | + | * vsechny tri hratelne v anglictine s vetami a s odstavci z Sherlocka Holmese |
- | * **Ukoly | + | * pro kazdou hru existuje demo cesky i anglicky a //how to play// pruvodce anglicky, pro Shannona i cesky |
- | | + | * prvni predstaveni portalu sirsi odborne verejnosti |
- | | + | |
- | * Bara - hlavni editor clanku | + | |
- | * Vsichni: vymyslet pravidla do 11. brezna, aby Jan Kohout mohl hru zacit hned implementovat. | + | |
- | | + | ==== Tym ==== |
+ | * Barbora Hladka (koordinace) | ||
+ | * Jiri Mirovsky (data) | ||
+ | * Jan Kohout (implementace her) | ||
+ | * Vladimir Rovensky (sprava LGame) | ||
+ | |||
+ | ==== Schuzky | ||
+ | * 31. ledna, 11:30, chodba k S1 | ||
+ | |||
+ | |||
+ | ==== Portal LGame ==== | ||
+ | * **Ukoly pro Honzu** | ||
+ | -=) '' | ||
+ | * JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou. | ||
+ | - Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, | ||
+ | | ||
+ | - :-D Na vhodnych forech hledat designera. (Vyvesit inzerat //do konce ledna//) | ||
+ | - Zvetsit velikost hracich oken ve spolupraci s Vladimirem. (//Do 25. ledna//) | ||
+ | - Programatorska dokumentace. (//Do konce unora//) | ||
+ | - :-D Export dat ze souteze PlayCoref --> preslat Jirkovi. (//Do konce ledna//) | ||
+ | - Uzivatelske zprijemneni. System by si mel pamatovat, s jaky nastavenim | ||
+ | - Data. Pokud nemame " | ||
+ | - U kazde verze pro dva hrace, dat v okne, kdy ceka hrac ceka na protihrace, moznost, aby mohl okamzite zacit hrat single verzi. | ||
+ | - Shannon | ||
+ | * Pro jednoho hrace. | ||
+ | * Ze stareho svn repozitare vytahnout zdrojak Shannona. | ||
+ | - Place the Space | ||
+ | * Implementovat verzi pro dva hrace. | ||
+ | * Podrobnosti | ||
+ | |||
+ | * **Ukoly | ||
+ | - :-D Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby " | ||
+ | - Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna) | ||
+ | - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//) | ||
+ | - :-D " | ||
+ | - :-D vypsat projekty (//Do konce unora//) --> viz [[http:// | ||
+ | * **Ukoly pro Baru** | ||
+ | | ||
+ | - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//) | ||
+ | - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn '' | ||
+ | - :-D sepsat pozadavky na funkcnost LGame a dle nich formulovat pozadavky na vizualizaci - :-D oslovit Michala Sotkovskeho (//Do 15. unora//) -- Mi**chal nema cas:-(** | ||
+ | - Konzistence - obsah prostredi pro jednotlive hry shodne. Designem jednotlive hry odlisit. | ||
+ | - Pro kazdou | ||
+ | - Verze pro jednoho a dva hrace (system). | ||
+ | - How to play (text). | ||
+ | - Demo (animace). | ||
+ | - Hrej! ("tlacitko"). | ||
+ | | ||
+ | - V pripade hrace pro dva, neni-li druhy hrac k dispozici, dat moznost zahrat si single verzi (system). | ||
+ | - Jazykove mutace - v jakych jazycich je hru mozne hrat. Default: cestina a anglictina. Designeme rozlisit jednotlive jazykove mutace | ||
+ | - 3, Design prizpusobit sirokouhlym monitorum. Minimalizovat usili uzivatele na scrolovani. Nejlepe, videt vse najednou. | ||
+ | - :-D na hlavni stranku dat informaci o textech, | ||
+ | - :-D vypsat rocnikove projekty (//Do konce unora//) --> viz [[http:// | ||
+ | * **Ukoly pro Vladimira** | ||
+ | - zmenit proporce na strankach LGame tak, aby uzivatel nemusel scrollovat, aby videl napriklad odkayz pod hlavnim oknem (//Do konce ledna//) | ||
+ | — | ||
+ | * Pro kazdou | ||
+ | * Nove hry | ||
+ | | ||
+ | | ||
+ | | ||
+ | * **Vypsat rocnikove projekty, bakalarky, diplomky!** VOlnost | ||
+ | |||
+ | ==== Autorské právo ==== | ||
+ | Originální anglické verze děl sira Arthura Conana Doyla je možno používat volně. | ||
+ | U modernějších českých překladů se musíme řídit zákonem o autorském právu. | ||
+ | Našel jsem Zákon č. 398/2006 Sb. - úplné znění zákona č. 121 /2000 Sb.; výňatek z tohoto zákona, který se nás týká: | ||
+ | |||
+ | §31 - Citace | ||
+ | (1) Do práva autorského nezasahuje ten, kdo | ||
+ | a) užije v odůvodněné míře výňatky ze zveřejněných děl jiných autorů ve svém díle, | ||
+ | b) **užije výňatky z díla nebo drobná celá díla pro účely** kritiky nebo recenze vztahující se k takovému dílu, **vědecké či odborné tvorby a takové užití bude v souladu s poctivými zvyklostmi a v rozsahu vyžadovaném konkrétním účelem, | ||
+ | c) **užije dílo** při vyučování pro ilustrační účel nebo **při vědeckém výzkumu, jejichž účelem není dosažení přímého nebo nepřímého hospodářského nebo obchodního prospěchu, a nepřesáhne rozsah odpovídající sledovanému účelu; | ||
+ | **vždy | ||
+ | (2) Do práva autorského nezasahuje ani ten, kdo výňatky z díla nebo drobná celá díla citovaná podle odstavce 1 písm. a) nebo b) dále užije; ustanovení odstavce 1 části věty za středníkem platí obdobně. | ||
+ | |||
+ | **Závěr JM:** Pro naše účely můžeme i novější český překlad použít; měli bychom ale pod nějaký odkaz dát jméno autora překladu a odkaz, odkud jsme to stáhli. | ||
+ | |||
+ | ==== Prezentace, demonstrace, | ||
+ | * GACR 2012 (po trech neuspesnych pokusech frustrace, ale ... ) | ||
+ | * PBML 96, rozsah: 20 stranek, deadline: May 30, 2011. | ||
+ | * [[http:// | ||
+ | * ... | ||
+ | |||
+ | ==== Finance ==== | ||
+ | - OON | ||
+ | - Jan Kohout, student, 24 tis. | ||
+ | - Vladimir Rovensky, student, 5 tis. | ||
+ | - Sluzby | ||
+ | - Design her, 20 tis. | ||
+ | - Naklady | ||
+ | - LGame hosting, 1 800 Kc (viz nize) | ||
---- | ---- | ||
- | * Projit si hry, ktere vydavaji velka vydavatelstvi | + | Z'' |
+ | |||
+ | Ucet: 1061626001/ | ||
+ | Castka: | ||
+ | Variabilni symbol: 33922011 | ||
+ | Konstantni symbol: ponechte prazdny nebo 0558 | ||
+ | |||
+ | Podrobny rozpis sluzeb: | ||
+ | |||
+ | Cena (s DPH) Popis sluzby | ||
+ | |||
+ | 1200,00 Kc Hosting domeny lgame.cz 12 mesicu v hostingovem programu Cesky hosting | ||
+ | 300,00 Kc Udrzovaci poplatek domeny lgame.cz na 12 mesicu | ||
+ | 300,00 Kc Udrzovaci poplatek domeny lgame.eu na 12 mesicu | ||
+ | |||
+ | Celkem k uhrade (vcetne DPH): 1800,00 Kc'' | ||
---- | ---- | ||
- | * Ze setkani 28. listopadu 2008 | ||
- | * Pavel: muze zacit s experimenty | ||
- | * 8-) Jirka: Prevod koreference v tektogramatickych stromech anotovanych Anjou a kol. do povrchu - viz nize oddil Data Format for the Project Play the Language | ||
- | * 8-) Bara: najit studenty k implementaci prvnich dvou her z casti ' | ||
- | * Trac system - jak to s nim je? | ||
- | * [[http:// | ||
- | * Pamatovat si: | ||
- | * Pracovat s texty v kodovani UTF-8. | ||
+ | ====== Motivation ====== | ||
- | ====== Games with a purpose (GWAP) | + | ===== Games with a purpose (GWAP) ===== |
- | | + | |
| | ||
+ | | ||
| | ||
+ | | ||
+ | * **JM** Docela pekny. Vzdycky se ptaji na jednu konkretni vec, to se podoba mymu puvodnimu navrhu. Chvilku jsem to zkousel, nevim ale, jak dlouho by me to bavilo, moc asi ne. Graficky je to nezajimavy (hra se odehrava jen v kousku obrazovky na obycejnem textu), tam je prostor ke zlepseni hratelnosti. | ||
+ | * **BH** | ||
+ | - Napad s detektivem se mi libi. | ||
+ | - Graficky je uvodni strana celkem pekna, ale na muj vkus je tam prilis mnoho informaci. Musim toho pomerne dost precist, abych mohla zacit hrat. | ||
+ | - Postradam dynamiku. | ||
+ | - Vzdy se ma najit " | ||
+ | * [[http:// | ||
- | ====== Related initiatives | + | |
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Related initiatives ===== | ||
| | ||
- | *[[http://lingo.clsp.jhu.edu/shannon/game.html|Carolina Parada]] with Fred Jelinek | + | *[[https://www.mturk.com/ |
- | * Comments sent to Carolina: TBA | + | |
+ | | ||
+ | | ||
- | ====== Papers to read ====== | ||
- | * (Snow et al., 2008) [[http:// | ||
- | * [[http:// | ||
- | ====== | + | |
- | Date: Fri, 10 Oct 2008 09:42:43 +0200 | + | |
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Papers/ | ||
+ | * (Snow et al., 2008) [[http:// | ||
+ | * Bara's summary: | ||
+ | * the units under the consideration: | ||
+ | * a term " | ||
+ | * their annotation tasks deal with labels of a broad scale. That is why they present a numerical (probabilistic) | ||
+ | * when comparing non-expert and expert annotations, | ||
+ | * [[http:// | ||
+ | | ||
+ | | ||
+ | |||
+ | ====== Our ideas ====== | ||
+ | Date: Fri, 10 Oct 2008 09:42:43 +0200, updated on Tue, 7 Apr 2009 | ||
From: Jiří Mírovský | From: Jiří Mírovský | ||
napadly me dve dalsi jazykove hry, ale bohuzel nejsou lingvisticky uzitecne | napadly me dve dalsi jazykove hry, ale bohuzel nejsou lingvisticky uzitecne | ||
- | (nenapada | + | (nenapada |
naladit je na jine, mene zabavne lingvisticke hry. | naladit je na jine, mene zabavne lingvisticke hry. | ||
Plus jedna, ktera by uzitecna byt mohla. | Plus jedna, ktera by uzitecna byt mohla. | ||
- | - Hraci dostanou vetu bez mezer mezi slovy a jejich ukolem je nadelat tam mezery, tedy provest tokenizaci. Jediny mozny uplatneni vidim na jazycich jako je thajstina, kde se mezery mezi slovy opravdu nepisou a na konferencich se prednasi o tom, jak to automaticky delat. | + | - Hraci dostanou vetu bez mezer mezi slovy a jejich ukolem je nadelat tam mezery, tedy provest tokenizaci. Jediny mozny uplatneni vidim na jazycich jako je thajstina, kde se mezery mezi slovy opravdu nepisou a na konferencich se prednasi o tom, jak to automaticky delat. |
- Hraci dostanou vetu s prehazenejma slovama (kazdy jinak, nahodne). Jejich cilem je sestavit puvodni vetu. Hraji, dokud se neshodnou, vyhrava ten, kdo to mel driv. Tady uz vubec nevidim zadne vyuziti vlastnich dat, ale mohlo by to fungovat jako reklama na lingvisticke hry, protoze bych rekl, ze tohle hrace bude bavit. Aby to bylo spravedlive, | - Hraci dostanou vetu s prehazenejma slovama (kazdy jinak, nahodne). Jejich cilem je sestavit puvodni vetu. Hraji, dokud se neshodnou, vyhrava ten, kdo to mel driv. Tady uz vubec nevidim zadne vyuziti vlastnich dat, ale mohlo by to fungovat jako reklama na lingvisticke hry, protoze bych rekl, ze tohle hrace bude bavit. Aby to bylo spravedlive, | ||
- Speech reconstruction (nebo jak se tomu odborne rika) - hraci dostanou vetu z rozpoznavace reci a jejich ukolem je udelat z toho standardni ceskou vetu - bez koktani, opakovani apod. | - Speech reconstruction (nebo jak se tomu odborne rika) - hraci dostanou vetu z rozpoznavace reci a jejich ukolem je udelat z toho standardni ceskou vetu - bez koktani, opakovani apod. | ||
+ | - Koherence textu - hráči dostanou text s přeházenými větami - dostanou množinu vět. Cílem je sestavit původní text - seřadit věty. Lucie tvrdí, že to jde vždy, když je text dobře napsaný. Měla na to diplomku. Já tvrdím, že jsou případy, kdy to nejde rozhodnout. Ale hra by z toho mohla být pěkná. | ||
- | ====== Video ====== | + | * Projit si hry, ktere vydavaji velka vydavatelstvi (Hasbro, |
- | *[[http:// | + | |
- | | + | |
- | ====== Corpora outside their original context ====== | ||
- | | ||
- | | ||
- | ====== The Project | + | ====== The PlayLang |
- | / | + | ===== Directory structure ===== |
- | * podadresář playcoref | + | Projekt využívá SVN repozitář, návod k použití zde: |
+ | [[https:// | ||
+ | Samotná textová data nejsou ovšem součástí repozitáře (k pracovní kopii se jen přilinkují, | ||
+ | / | ||
- | + | ===== Data Format (and Tred Support) for the Project Play the Language ===== | |
- | ====== Data Format (and Tred Support) for the Project Play the Language | + | Date: Wed, 24 Dec 2008 |
- | Date: Wed, 24 Dec 2008, updated Tue, 6 Jan 2009 | + | Updates: |
From: Jiří Mírovský | From: Jiří Mírovský | ||
- | ==== Návrh formátu | + | === Formát souborů |
Důvody: | Důvody: | ||
* automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo | * automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo | ||
Line 88: | Line 227: | ||
* morfologická rovina jde dobře zobrazit v Tredu | * morfologická rovina jde dobře zobrazit v Tredu | ||
- | ==== Schéma | + | Alternativně používáme také rozšíření a-roviny z PDT 2.0. |
- | /net/work/projects/playlang/playcoref/ | + | |
- | * obsahuje | + | Data pro projekt playlang jsou v adresáři: '' |
+ | |||
+ | ==== Schémata | ||
+ | PML schémata jsou zde: '' | ||
+ | * obě schémata (a- i m-) obsahují | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * dalším rozšířením obou schémat je možnost vkládat informaci o pojmenovaných entitách, a to ve struktuře '' | ||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | ==== Převod dat PDT 2.0 (rozšíření bridging) do formátu playlang: ==== | ||
+ | V adresáři '' | ||
+ | |||
+ | == Nejprve se změní schéma souboru (m- nebo a-): == | ||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | == Pak se z rozšířené t-roviny získá seznam koreferenčních dvojic promítnutých na uzly a-roviny nebo m-roviny: == | ||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | == Nakonec se koreferenční dvojice z daného seznamu vloží do rozšířeného m-souboru nebo a-souboru: == | ||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | == Některé koreferenční vztahy je možno zamknout: == | ||
+ | * '' | ||
+ | |||
+ | === Pojmenované entity === | ||
+ | == Nejprve je potřeba získat seznam pojmenovaných entit: == | ||
+ | * To se provádí v TectoMT (kde se ostatně pojmenované entity v souborech automaticky označí). Skript pro vytvoření seznamu pojmenovaných entit se jmenuje '' | ||
- | ==== Převod dat PDT 2.0 do formátu playlang: ==== | + | == Pojmenované entity z vytvořeného seznamu se vloží |
- | V adresáři / | + | * '' |
- | * _change_mschema_to_playlang.sh - změní schéma m-souborů na mdata_schema_playlang.xml | + | === Vkládání dat do herní databáze === |
- | * new_textual_coreference_extract.ntred - prochází textovou koreferenci na t-rovině z projektu anotování rozšířené textové koreference a vypíše seznam textově koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-rovině; koreference mezi uzly, které nemají povrchový protějšek, | + | Pro vkládání dat do herní databáze používáme formát csts. |
- | * textual_coreference_add.ntred - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny | + | |
- | Převedl jsem data z projektu anotování | + | == Převod rozšířené |
- | / | + | * '' |
+ | ==== Převod dat z prostého textu do formátu playlang: ==== | ||
+ | === Převod pro PlayCoref === | ||
+ | Využíváme analýzu v modulárním systému TectoMT. | ||
+ | Postup při zpracování české verze Studie v Šarlatové byl tento: | ||
+ | - Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná. | ||
+ | - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT; použil jsem i bloky pro přidání gramatické koreference. | ||
+ | - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: '' | ||
+ | - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu '' | ||
+ | - Pak nastává převod do formátu PDT. Používám skript z TectoMT->'' | ||
+ | * '' | ||
+ | * '' | ||
+ | * V takto získaných datech je ještě potřeba upravit identifikátory (vlastní skripty '' | ||
+ | * Pozor, skript hledá elementy SCzech*, proto pro anglický text je nejdřív potřeba nahradit v tmt souboru výskyty SEnglish za SCzech! | ||
+ | === Převod pro Shannona a Place the Space === | ||
+ | Je potřeba převádět jinak, neboť v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. Automatické doplnění není spolehlivé. | ||
+ | **Pro češtinu** proto používám tool-chain z projektu ČAK. Bohužel mi nefunguje (a nevím proč) tool-chain až na a-rovinu, a tak ho používám jen na m-rovinu, navíc jen v csts. Ale to pro tyto účely stačí! Vstupní text musí být v ISO-LATIN-2, | ||
+ | Vzniklý csts soubor převedu do UTF-8, pomocí skriptu PlayLang->'' | ||
==== Zobrazení v Tredu: ==== | ==== Zobrazení v Tredu: ==== | ||
Pro Tred existuje rozšíření //Play the Language (playlang)//, | Pro Tred existuje rozšíření //Play the Language (playlang)//, | ||
- | (zdroj: | + | (zdroj: |
- | Umožňuje otevřít rozšířené m-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových " | + | Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových " |
Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na " | Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na " | ||
Ovládání: | Ovládání: | ||
- | **Ctrl+t** - zapne/vypne zobrazení šipek | + | **Ctrl+t** - zapne/vypne zobrazení šipek koreference a zvýraznění prvků koreferenčních řetízků aktuálního slova v kontextových větách |
**Alt+p** - přepne do čistě morfologického módu - nejsou zobrazeny kontextové " | **Alt+p** - přepne do čistě morfologického módu - nejsou zobrazeny kontextové " | ||
**Alt+c** - přepne do módu // | **Alt+c** - přepne do módu // | ||
Aktuální uzel lze měnit jak kliknutím na uzel, tak i jednoduchým kliknutím na slovo v kontextových větách. | Aktuální uzel lze měnit jak kliknutím na uzel, tak i jednoduchým kliknutím na slovo v kontextových větách. |