Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
user:hladka:playlang [2011/01/04 09:30] hladka |
user:hladka:playlang [2011/03/02 09:54] (current) hladka |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Hot Issues ====== | ||
- | * Plan 2011 | ||
- | * rekapitulace | ||
- | * [[Play the Language Competition]], | ||
- | * **[[http:// | ||
- | |||
+ | ====== Plan 2011 ====== | ||
+ | ==== Rekapitulace 2010 ==== | ||
+ | * na portalu prezentovany tri hry: Shannon Game (pro dva hrace), Place the Space (pro jednoho hrace), PlayCoref (pro jednoho a pro dva hrace) | ||
+ | * vsechny tri hratelne v anglictine s vetami a s odstavci z Sherlocka Holmese | ||
+ | * pro kazdou hru existuje demo cesky i anglicky a //how to play// pruvodce anglicky, pro Shannona i cesky | ||
+ | * prvni predstaveni portalu sirsi odborne verejnosti [[Play the Language Competition]], | ||
- | ====== Games with a purpose (GWAP) | + | |
+ | |||
+ | ==== Tym ==== | ||
+ | * Barbora Hladka (koordinace) | ||
+ | * Jiri Mirovsky (data) | ||
+ | * Jan Kohout (implementace her) | ||
+ | * Vladimir Rovensky (sprava LGame) | ||
+ | |||
+ | ==== Schuzky | ||
+ | * 31. ledna, 11:30, chodba k S1 | ||
+ | |||
+ | |||
+ | ==== Portal LGame ==== | ||
+ | * **Ukoly pro Honzu** | ||
+ | -=) '' | ||
+ | * JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou. | ||
+ | - Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, | ||
+ | * JK: Pridavani novych jazykovych verzi her je uz ted docela dobre navrzene, co se Flashe tyce, tak to nepotrebuje menit program, staci, kdyz se prida dalsi xml s prekladem jednotlivych popisku GUI. V PHP by to take nemelo vyzadovat vetsi zasahy (co se API jednotlivych her tyce). | ||
+ | - :-D Na vhodnych forech hledat designera. (Vyvesit inzerat //do konce ledna//) | ||
+ | - Zvetsit velikost hracich oken ve spolupraci s Vladimirem. (//Do 25. ledna//) | ||
+ | - Programatorska dokumentace. (//Do konce unora//) | ||
+ | - :-D Export dat ze souteze PlayCoref --> preslat Jirkovi. (//Do konce ledna//) | ||
+ | - Uzivatelske zprijemneni. System by si mel pamatovat, s jaky nastavenim portalu hrac skoncil. Pri naslednem prihlaseni se objevi prave toto nastaveni. (tj. jakou hru, jaky jazyk ma uzivatel rad:-)) | ||
+ | - Data. Pokud nemame " | ||
+ | - U kazde verze pro dva hrace, dat v okne, kdy ceka hrac ceka na protihrace, moznost, aby mohl okamzite zacit hrat single verzi. | ||
+ | - Shannon Game | ||
+ | * Pro jednoho hrace. | ||
+ | * Ze stareho svn repozitare vytahnout zdrojak Shannona. | ||
+ | - Place the Space | ||
+ | * Implementovat verzi pro dva hrace. | ||
+ | * Podrobnosti na strance [[Place the space]]. | ||
+ | |||
+ | * **Ukoly pro Jirku** | ||
+ | - :-D Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby " | ||
+ | - Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna) | ||
+ | - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//) | ||
+ | - :-D " | ||
+ | - :-D vypsat projekty (//Do konce unora//) --> viz [[http:// | ||
+ | * **Ukoly pro Baru** | ||
+ | - :-D sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//) | ||
+ | - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//) | ||
+ | - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn '' | ||
+ | - :-D sepsat pozadavky na funkcnost LGame a dle nich formulovat pozadavky na vizualizaci - :-D oslovit Michala Sotkovskeho (//Do 15. unora//) -- Mi**chal nema cas:-(** | ||
+ | - Konzistence - obsah prostredi pro jednotlive hry shodne. Designem jednotlive hry odlisit. | ||
+ | - Pro kazdou hru musi existovat | ||
+ | - Verze pro jednoho a dva hrace (system). | ||
+ | - How to play (text). | ||
+ | - Demo (animace). | ||
+ | - Hrej! (" | ||
+ | - Poradi hracu (seznam). | ||
+ | - V pripade hrace pro dva, neni-li druhy hrac k dispozici, dat moznost zahrat si single verzi (system). | ||
+ | - Jazykove mutace - v jakych jazycich je hru mozne hrat. Default: cestina a anglictina. Designeme rozlisit jednotlive jazykove mutace tak, aby uzivatel pohledem na screen poznal, ze je v ceskem prostredi. | ||
+ | - 3, Design prizpusobit sirokouhlym monitorum. Minimalizovat usili uzivatele na scrolovani. Nejlepe, videt vse najednou. | ||
+ | - :-D na hlavni stranku dat informaci o textech, se kterymi se hraje (//Do 15. unora//) | ||
+ | - :-D vypsat rocnikove projekty (//Do konce unora//) --> viz [[http:// | ||
+ | * **Ukoly pro Vladimira** | ||
+ | - zmenit proporce na strankach LGame tak, aby uzivatel nemusel scrollovat, aby videl napriklad odkayz pod hlavnim oknem (//Do konce ledna//) | ||
+ | — | ||
+ | * Pro kazdou hru mit automatickou proceduru, ktera se nasadi jako (virtualni) protihrac. | ||
+ | * Nove hry | ||
+ | * Pojmenovane entity - viz [[PlayNE]]. | ||
+ | * Koherence vety/ | ||
+ | * ... | ||
+ | * **Vypsat rocnikove projekty, bakalarky, diplomky!** VOlnost v technologiich, | ||
+ | |||
+ | ==== Autorské právo ==== | ||
+ | Originální anglické verze děl sira Arthura Conana Doyla je možno používat volně. | ||
+ | U modernějších českých překladů se musíme řídit zákonem o autorském právu. | ||
+ | Našel jsem Zákon č. 398/2006 Sb. - úplné znění zákona č. 121 /2000 Sb.; výňatek z tohoto zákona, který se nás týká: | ||
+ | |||
+ | §31 - Citace | ||
+ | (1) Do práva autorského nezasahuje ten, kdo | ||
+ | a) užije v odůvodněné míře výňatky ze zveřejněných děl jiných autorů ve svém díle, | ||
+ | b) **užije výňatky z díla nebo drobná celá díla pro účely** kritiky nebo recenze vztahující se k takovému dílu, **vědecké či odborné tvorby a takové užití bude v souladu s poctivými zvyklostmi a v rozsahu vyžadovaném konkrétním účelem, | ||
+ | c) **užije dílo** při vyučování pro ilustrační účel nebo **při vědeckém výzkumu, jejichž účelem není dosažení přímého nebo nepřímého hospodářského nebo obchodního prospěchu, a nepřesáhne rozsah odpovídající sledovanému účelu; | ||
+ | **vždy je však nutno uvést, je-li to možné, jméno autora,** nejde-li o dílo anonymní, nebo jméno osoby, pod jejímž jménem se dílo uvádí na veřejnost, **a dále název díla a pramen.** | ||
+ | (2) Do práva autorského nezasahuje ani ten, kdo výňatky z díla nebo drobná celá díla citovaná podle odstavce 1 písm. a) nebo b) dále užije; ustanovení odstavce 1 části věty za středníkem platí obdobně. | ||
+ | |||
+ | **Závěr JM:** Pro naše účely můžeme i novější český překlad použít; měli bychom ale pod nějaký odkaz dát jméno autora překladu a odkaz, odkud jsme to stáhli. | ||
+ | |||
+ | ==== Prezentace, demonstrace, | ||
+ | * GACR 2012 (po trech neuspesnych pokusech frustrace, ale ... ) | ||
+ | * PBML 96, rozsah: 20 stranek, deadline: May 30, 2011. | ||
+ | * [[http:// | ||
+ | * ... | ||
+ | |||
+ | ==== Finance ==== | ||
+ | - OON | ||
+ | - Jan Kohout, student, 24 tis. | ||
+ | - Vladimir Rovensky, student, 5 tis. | ||
+ | - Sluzby | ||
+ | - Design her, 20 tis. | ||
+ | - Naklady na prezentaci, 20 tis. | ||
+ | - LGame hosting, 1 800 Kc (viz nize) | ||
+ | |||
+ | ---- | ||
+ | |||
+ | Z'' | ||
+ | |||
+ | Ucet: 1061626001/ | ||
+ | Castka: | ||
+ | Variabilni symbol: 33922011 | ||
+ | Konstantni symbol: ponechte prazdny nebo 0558 | ||
+ | |||
+ | Podrobny rozpis sluzeb: | ||
+ | |||
+ | Cena (s DPH) Popis sluzby | ||
+ | |||
+ | | ||
+ | 300,00 Kc Udrzovaci poplatek domeny lgame.cz na 12 mesicu | ||
+ | 300,00 Kc Udrzovaci poplatek domeny lgame.eu na 12 mesicu | ||
+ | |||
+ | Celkem k uhrade (vcetne DPH): 1800,00 Kc'' | ||
+ | |||
+ | ---- | ||
+ | |||
+ | |||
+ | ====== Motivation ====== | ||
+ | |||
+ | ===== Games with a purpose (GWAP) ===== | ||
| | ||
| | ||
Line 39: | Line 158: | ||
- | ====== Related initiatives | + | ===== Related initiatives ===== |
| | ||
| | ||
Line 57: | Line 176: | ||
- | ====== Papers/ | + | ===== Papers/ |
* (Snow et al., 2008) [[http:// | * (Snow et al., 2008) [[http:// | ||
* Bara's summary: | * Bara's summary: | ||
Line 68: | Line 187: | ||
| | ||
- | ====== | + | ====== |
Date: Fri, 10 Oct 2008 09:42:43 +0200, updated on Tue, 7 Apr 2009 | Date: Fri, 10 Oct 2008 09:42:43 +0200, updated on Tue, 7 Apr 2009 | ||
From: Jiří Mírovský | From: Jiří Mírovský | ||
Line 85: | Line 204: | ||
- | ====== The Project | + | ====== The PlayLang |
+ | |||
+ | ===== Directory structure | ||
Projekt využívá SVN repozitář, | Projekt využívá SVN repozitář, | ||
Line 94: | Line 215: | ||
/ | / | ||
- | ====== Data Format (and Tred Support) for the Project Play the Language | + | ===== Data Format (and Tred Support) for the Project Play the Language ===== |
- | Date: Wed, 24 Dec 2008, updated Tue, 6 Jan 2009, again Fri, 27 Mar 2009 | + | Date: Wed, 24 Dec 2008 |
+ | Updates: | ||
From: Jiří Mírovský | From: Jiří Mírovský | ||
- | ==== Návrh formátu | + | === Formát souborů |
Důvody: | Důvody: | ||
* automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo | * automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo | ||
Line 104: | Line 226: | ||
* automatické procedury pro předzpracování textů (např. detekce kandidátů pro koreferenci) budou lemmatizaci a morfologii nejspíš potřebovat | * automatické procedury pro předzpracování textů (např. detekce kandidátů pro koreferenci) budou lemmatizaci a morfologii nejspíš potřebovat | ||
* morfologická rovina jde dobře zobrazit v Tredu | * morfologická rovina jde dobře zobrazit v Tredu | ||
- | ==== Schéma rozšířené m-roviny: ==== | ||
- | PML schéma je zde: {ROOT}/ | ||
- | * obsahuje rozšíření o seznam struktur pro anotaci koreference; | ||
- | * type - určuje, o jakou koreferenci jde: textual nebo grammatical | ||
- | * lock - pro účely hry PlayCoref zamyká či odemyká jednotlivé šipky (hodnoty: locked/ | ||
- | ==== Převod dat PDT 2.0 do formátu playlang: ==== | + | Alternativně používáme také rozšíření a-roviny z PDT 2.0. |
- | V adresáři {ROOT}/ | + | |
+ | Data pro projekt playlang jsou v adresáři: '' | ||
+ | |||
+ | ==== Schémata rozšířené m-roviny a rozšířené a-roviny: ==== | ||
+ | PML schémata jsou zde: '' | ||
+ | * obě schémata (a- i m-) obsahují rozšíření o atribut '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * dalším rozšířením obou schémat je možnost vkládat informaci o pojmenovaných entitách, a to ve struktuře '' | ||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | ==== Převod dat PDT 2.0 (rozšíření bridging) | ||
+ | V adresáři | ||
+ | |||
+ | == Nejprve se změní schéma souboru (m- nebo a-): == | ||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | == Pak se z rozšířené t-roviny získá seznam koreferenčních dvojic promítnutých na uzly a-roviny nebo m-roviny: == | ||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | == Nakonec se koreferenční dvojice z daného seznamu vloží do rozšířeného m-souboru nebo a-souboru: == | ||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | == Některé koreferenční vztahy je možno zamknout: == | ||
+ | * '' | ||
+ | |||
+ | === Pojmenované entity === | ||
+ | == Nejprve je potřeba získat seznam pojmenovaných entit: == | ||
+ | * To se provádí v TectoMT (kde se ostatně pojmenované entity v souborech automaticky označí). Skript pro vytvoření seznamu pojmenovaných entit se jmenuje '' | ||
+ | |||
+ | == Pojmenované entity z vytvořeného seznamu se vloží do rozšířeného a-souboru (zatím nebyl potřeba skript i pro m-soubor): == | ||
+ | * '' | ||
+ | |||
+ | === Vkládání dat do herní databáze === | ||
+ | Pro vkládání dat do herní databáze používáme formát csts. | ||
+ | |||
+ | == Převod rozšířené a-roviny do rozšířeného csts == | ||
+ | * '' | ||
+ | |||
+ | ==== Převod dat z prostého textu do formátu playlang: ==== | ||
+ | |||
+ | === Převod pro PlayCoref === | ||
+ | Využíváme analýzu v modulárním systému TectoMT. | ||
+ | |||
+ | Postup při zpracování české verze Studie v Šarlatové byl tento: | ||
+ | - Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná. | ||
+ | - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT; použil jsem i bloky pro přidání gramatické koreference. | ||
+ | - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: '' | ||
+ | - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu '' | ||
+ | - Pak nastává převod do formátu PDT. Používám skript z TectoMT->'' | ||
+ | * '' | ||
+ | * '' | ||
+ | * V takto získaných datech je ještě potřeba upravit identifikátory (vlastní skripty '' | ||
+ | * Pozor, skript hledá elementy SCzech*, proto pro anglický text je nejdřív potřeba nahradit v tmt souboru výskyty SEnglish za SCzech! | ||
+ | |||
+ | === Převod pro Shannona a Place the Space === | ||
+ | Je potřeba převádět jinak, neboť v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. Automatické doplnění není spolehlivé. | ||
- | | + | **Pro češtinu** proto používám tool-chain z projektu |
- | | + | |
- | * _coreference_add.ntred - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny | + | |
- | * _coreference_lock.ntred - koreferenční šipky opatří správnými hodnotami atributu lock | + | |
- | Aktuálně | + | Vzniklý csts soubor |
==== Zobrazení v Tredu: ==== | ==== Zobrazení v Tredu: ==== | ||
Pro Tred existuje rozšíření //Play the Language (playlang)//, | Pro Tred existuje rozšíření //Play the Language (playlang)//, | ||
- | (zdroj: {ROOT}/ | + | (zdroj: |
- | Umožňuje otevřít rozšířené m-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových " | + | Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových " |
Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na " | Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na " | ||