[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:hladka:playlang [2011/01/24 11:39]
ufal
user:hladka:playlang [2011/03/02 09:53]
hladka
Line 25: Line 25:
 ==== Portal LGame ==== ==== Portal LGame ====
   * **Ukoly pro Honzu**    * **Ukoly pro Honzu** 
-  - Presun LGame na novy server. Realizace s Milanem Fucikem. (//Do konce ledna//)+  -=) ''http://lgame.ms.mff.cuni.cz/lgame'' Presun LGame na novy server. Realizace s Milanem Fucikem. (//Do konce ledna//)
     * JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou.     * JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou.
   - Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, napr. thajstina --> anglictina). Zaroven to znamena, zase az na vyjimky, ze s texty prislusneho jazyka chce hrac hrat. Proto doplnit vlajecky k demum. (//Do 4. unora)//)   - Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, napr. thajstina --> anglictina). Zaroven to znamena, zase az na vyjimky, ze s texty prislusneho jazyka chce hrac hrat. Proto doplnit vlajecky k demum. (//Do 4. unora)//)
     * JK: Pridavani novych jazykovych verzi her je uz ted docela dobre navrzene, co se Flashe tyce, tak to nepotrebuje menit program, staci, kdyz se prida dalsi xml s prekladem jednotlivych popisku GUI. V PHP by to take nemelo vyzadovat vetsi zasahy (co se API jednotlivych her tyce).     * JK: Pridavani novych jazykovych verzi her je uz ted docela dobre navrzene, co se Flashe tyce, tak to nepotrebuje menit program, staci, kdyz se prida dalsi xml s prekladem jednotlivych popisku GUI. V PHP by to take nemelo vyzadovat vetsi zasahy (co se API jednotlivych her tyce).
-  - Na vhodnych forech hledat designera. (Vyvesit inzerat //do konce ledna//)+  - :-D Na vhodnych forech hledat designera. (Vyvesit inzerat //do konce ledna//)
   - Zvetsit velikost hracich oken ve spolupraci s Vladimirem. (//Do 25. ledna//)   - Zvetsit velikost hracich oken ve spolupraci s Vladimirem. (//Do 25. ledna//)
   - Programatorska dokumentace. (//Do konce unora//)   - Programatorska dokumentace. (//Do konce unora//)
-  - Export dat ze souteze PlayCoref --> preslat Jirkovi. (//Do konce ledna//)+  - :-D Export dat ze souteze PlayCoref --> preslat Jirkovi. (//Do konce ledna//)
   - Uzivatelske zprijemneni. System by si mel pamatovat, s jaky nastavenim portalu hrac skoncil. Pri naslednem prihlaseni se objevi prave toto nastaveni. (tj. jakou hru, jaky jazyk ma uzivatel rad:-))   - Uzivatelske zprijemneni. System by si mel pamatovat, s jaky nastavenim portalu hrac skoncil. Pri naslednem prihlaseni se objevi prave toto nastaveni. (tj. jakou hru, jaky jazyk ma uzivatel rad:-))
   - Data. Pokud nemame "spolehliva" data, brat vystupy z predchozich partii. Prvni hrac je na tom nejhur, pro nej se pouzije automaticka procedura - zohlednit pri pocitani skore. Spolehlivost anotace.  Vyzkouset u PlayCoref.   - Data. Pokud nemame "spolehliva" data, brat vystupy z predchozich partii. Prvni hrac je na tom nejhur, pro nej se pouzije automaticka procedura - zohlednit pri pocitani skore. Spolehlivost anotace.  Vyzkouset u PlayCoref.
 +  - U kazde verze pro dva hrace, dat v okne, kdy ceka hrac ceka na protihrace, moznost, aby mohl okamzite zacit hrat single verzi.
   - Shannon Game   - Shannon Game
     * Pro jednoho hrace.     * Pro jednoho hrace.
Line 43: Line 44:
  
   * **Ukoly pro Jirku**    * **Ukoly pro Jirku** 
-   - Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby "free", ale jazykově spíš nepoužitelná), druhá novější na serveru http://ld.johanesville.net/doyle-06-studie-v-sarlatove?page=1, ale nic tam nepíšou o roku překladu a o autorských právech; o autorském právu ale píšu níže v samostatné sekci)+   :-D Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby "free", ale jazykově spíš nepoužitelná), druhá novější na serveru http://ld.johanesville.net/doyle-06-studie-v-sarlatove?page=1, ale nic tam nepíšou o roku překladu a o autorských právech; o autorském právu ale píšu níže v samostatné sekci)
    - Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna)    - Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna)
    - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//)    - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//)
-   - vypsat projekty (//Do konce unora//)+   =) "podstrcit" ceskeho Doyla anotatorum (//Na zacatku brezna//) 
 +   - =) vypsat projekty (//Do konce unora//--> viz [[http://ufal.mff.cuni.cz/~mirovsky/vyuka/Nabidka_rocnikovych_projektu.html|http://ufal.mff.cuni.cz/~mirovsky/vyuka/Nabidka_rocnikovych_projektu.html]]
   * **Ukoly pro Baru**   * **Ukoly pro Baru**
-   - sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//)+   :-) sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//)
    - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//)    - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//)
    - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn ''\playlang_UFAL\doc\papers\2011_PBML_96''    - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn ''\playlang_UFAL\doc\papers\2011_PBML_96''
-   vypsat rocnikove projekty (//Do konce unora//) +   :-D sepsat pozadavky na funkcnost LGame a dle nich formulovat pozadavky na vizualizaci - :-D oslovit Michala Sotkovskeho (//Do 15. unora//-- Mi**chal nema cas:-(** 
-     implementace Place the Space pro iPhone Android +      Konzistence - obsah prostredi pro jednotlive hry shodne. Designem jednotlive hry odlisit. 
-     nova hrakoherence textu: na urovni vety: prehazet poradi slov ve vete, uzivatel rekonstruuje puvodni poradek slov ve vete implementovat pro iPhoneAndroid.+      - Pro kazdou hru musi existovat 
 +         - Verze pro jednoho dva hrace (system). 
 +         How to play (text). 
 +         - Demo (animace). 
 +         - Hrej! ("tlacitko"). 
 +         - Poradi hracu (seznam). 
 +         - V pripade hrace pro dva, neni-li druhy hrac k dispozici, dat moznost zahrat si single verzi (system). 
 +         - Jazykove mutace - v jakych jazycich je hru mozne hrat. Defaultcestina a anglictina. Designeme rozlisit jednotlive jazykove mutace takaby uzivatel pohledem na screen poznal, ze je v ceskem prostredi. 
 +      3Design prizpusobit sirokouhlym monitorum. Minimalizovat usili uzivatele na scrolovani. Nejlepe, videt vse najednou. 
 +  -    - :-D na hlavni stranku dat informaci o textech, se kterymi se hraje (//Do 15. unora//) 
 +   - :-D) vypsat rocnikove projekty (//Do konce unora//) --> viz [[http://ufal.mff.cuni.cz/~hladka/dp.html|http://ufal.mff.cuni.cz/~hladka/dp.html]]
   * **Ukoly pro Vladimira**   * **Ukoly pro Vladimira**
    - zmenit proporce na strankach LGame tak, aby uzivatel nemusel scrollovat, aby videl napriklad odkayz pod hlavnim oknem (//Do konce ledna//)    - zmenit proporce na strankach LGame tak, aby uzivatel nemusel scrollovat, aby videl napriklad odkayz pod hlavnim oknem (//Do konce ledna//)
- 
  
   * Pro kazdou hru mit automatickou proceduru, ktera se nasadi jako (virtualni) protihrac.   * Pro kazdou hru mit automatickou proceduru, ktera se nasadi jako (virtualni) protihrac.
Line 93: Line 104:
     - Design her, 20 tis.     - Design her, 20 tis.
   - Naklady na prezentaci, 20 tis.   - Naklady na prezentaci, 20 tis.
-  - LGame hosting, cca 2 tis. (nevim presne)+  - LGame hosting, 1 800 Kc (viz nize) 
 + 
 +---- 
 + 
 +Z''adame Vas proto o uhrazeni platby s temito parametry: 
 + 
 +Ucet:              1061626001/5500 (Raiffeisenbank) 
 +Castka:            1800,00 Kc 
 +Variabilni symbol: 33922011 
 +Konstantni symbol: ponechte prazdny nebo 0558 
 + 
 +Podrobny rozpis sluzeb: 
 + 
 +Cena (s DPH)   Popis sluzby 
 + 
 + 1200,00 Kc  Hosting domeny lgame.cz 12 mesicu v hostingovem programu Cesky hosting 
 +  300,00 Kc  Udrzovaci poplatek domeny lgame.cz na 12 mesicu 
 +  300,00 Kc  Udrzovaci poplatek domeny lgame.eu na 12 mesicu 
 + 
 +Celkem k uhrade (vcetne DPH): 1800,00 Kc'' 
 + 
 +---- 
  
 ====== Motivation ====== ====== Motivation ======
Line 238: Line 271:
 == Převod rozšířené a-roviny do rozšířeného csts == == Převod rozšířené a-roviny do rozšířeného csts ==
   * ''convert_atrees_to_csts.ntred'' - skript pro převod rozšířené a-roviny obsahující koreferenci (a případně pojmenované entity) do rozšířeného csts   * ''convert_atrees_to_csts.ntred'' - skript pro převod rozšířené a-roviny obsahující koreferenci (a případně pojmenované entity) do rozšířeného csts
 +
 +==== Převod dat z prostého textu do formátu playlang: ====
 +
 +=== Převod pro PlayCoref ===
 +Využíváme analýzu v modulárním systému TectoMT.
 +
 +Postup při zpracování české verze Studie v Šarlatové byl tento:
 +  - Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná.
 +  - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT; použil jsem i bloky pro přidání gramatické koreference.
 +  - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: ''personal/mirovsky/coreference/sc_CzNEMWRecognition.scen''.)
 +  - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu ''ne_atrees_to_txt.pl'' do textového souboru; z něj pak jdou později vložit do stejných dat v jiném formátu než tmt (pro mne je to schůdnější cesta než psát/upravovat přímou konverzi z tmt do pdt tak, aby uměla i pojmenované entity).
 +  - Pak nastává převod do formátu PDT. Používám skript z TectoMT->''tools/format_convertors/tmt_to_pdt'':
 +     * ''tmt-to-pdt.pl -a amdata_schema.xml soubor.tmt'' ... vznikne t-soubor a a-soubor s vloženými m a w rovinami; tento a-soubor dále filtruji a získávám z něj samostatné w- a m-soubory (používám vlastní skripty ''ma_to_w.pl'' a ''ma_to_m.pl'' (PlayLang->''playcoref/scripts/tmt_to_pdt'')
 +     * ''tmt-to-pdt.pl soubor.tmt'' ... spustím to znovu bez přepínače, tak získám čistý a-soubor
 +     * V takto získaných datech je ještě potřeba upravit identifikátory (vlastní skripty ''fix_id_ta.pl'' a ''fix_id_mw.pl'' + drobné ruční úpravy).
 +     * Pozor, skript hledá elementy SCzech*, proto pro anglický text je nejdřív potřeba nahradit v tmt souboru výskyty SEnglish za SCzech!
 +
 +=== Převod pro Shannona a Place the Space ===
 +Je potřeba převádět jinak, neboť v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. Automatické doplnění není spolehlivé.
 +
 +**Pro češtinu** proto používám tool-chain z projektu ČAK. Bohužel mi nefunguje (a nevím proč) tool-chain až na a-rovinu, a tak ho používám jen na m-rovinu, navíc jen v csts. Ale to pro tyto účely stačí! Vstupní text musí být v ISO-LATIN-2, což znamená, že některé znaky (spodní a horní uvozovky, dlouhé pomlčky a další) je potřeba napřed nahradit standardními ekvivalenty. Tokenizer je v tool-chainu lepší než v TectoMT, a tak není potřeba dávat tečky za nadpisy a lépe se vypořádá s tečkami uprostřed vět. Nový řádek znamená konec věty - ve vstupním textu tedy nesmí být věty přerušeny novým řádkem; nový odstavec bude tam, kde je ve vstupním textu prázdný řádek.
 +
 +Vzniklý csts soubor převedu do UTF-8, pomocí skriptu PlayLang->''playcoref/scripts/txt_to_csts/_csts_fill_ids.pl'' dodělám id k elementům <f> a <d>; následně vyberu věty minimální délky 6 (a pro Shannona bez interpunkce) pomocí skriptu PlayLang->''playcoref/scripts/_csts_filter_sentences.pl''. (Id-čka předtím ještě zkracuju (aby byla jen pXsYwZ) a také nahrazuju elementy <MD[lt] src="m"> pouhými <[lt]>.)
  
 ==== Zobrazení v Tredu: ==== ==== Zobrazení v Tredu: ====

[ Back to the navigation ] [ Back to the content ]