[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:hladka:playlang [2011/01/25 12:36]
mirovsky
user:hladka:playlang [2011/03/02 09:54] (current)
hladka
Line 25: Line 25:
 ==== Portal LGame ==== ==== Portal LGame ====
   * **Ukoly pro Honzu**    * **Ukoly pro Honzu** 
-  - Presun LGame na novy server. Realizace s Milanem Fucikem. (//Do konce ledna//)+  -=) ''http://lgame.ms.mff.cuni.cz/lgame'' Presun LGame na novy server. Realizace s Milanem Fucikem. (//Do konce ledna//)
     * JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou.     * JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou.
   - Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, napr. thajstina --> anglictina). Zaroven to znamena, zase az na vyjimky, ze s texty prislusneho jazyka chce hrac hrat. Proto doplnit vlajecky k demum. (//Do 4. unora)//)   - Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, napr. thajstina --> anglictina). Zaroven to znamena, zase az na vyjimky, ze s texty prislusneho jazyka chce hrac hrat. Proto doplnit vlajecky k demum. (//Do 4. unora)//)
     * JK: Pridavani novych jazykovych verzi her je uz ted docela dobre navrzene, co se Flashe tyce, tak to nepotrebuje menit program, staci, kdyz se prida dalsi xml s prekladem jednotlivych popisku GUI. V PHP by to take nemelo vyzadovat vetsi zasahy (co se API jednotlivych her tyce).     * JK: Pridavani novych jazykovych verzi her je uz ted docela dobre navrzene, co se Flashe tyce, tak to nepotrebuje menit program, staci, kdyz se prida dalsi xml s prekladem jednotlivych popisku GUI. V PHP by to take nemelo vyzadovat vetsi zasahy (co se API jednotlivych her tyce).
-  - Na vhodnych forech hledat designera. (Vyvesit inzerat //do konce ledna//)+  - :-D Na vhodnych forech hledat designera. (Vyvesit inzerat //do konce ledna//)
   - Zvetsit velikost hracich oken ve spolupraci s Vladimirem. (//Do 25. ledna//)   - Zvetsit velikost hracich oken ve spolupraci s Vladimirem. (//Do 25. ledna//)
   - Programatorska dokumentace. (//Do konce unora//)   - Programatorska dokumentace. (//Do konce unora//)
-  - Export dat ze souteze PlayCoref --> preslat Jirkovi. (//Do konce ledna//)+  - :-D Export dat ze souteze PlayCoref --> preslat Jirkovi. (//Do konce ledna//)
   - Uzivatelske zprijemneni. System by si mel pamatovat, s jaky nastavenim portalu hrac skoncil. Pri naslednem prihlaseni se objevi prave toto nastaveni. (tj. jakou hru, jaky jazyk ma uzivatel rad:-))   - Uzivatelske zprijemneni. System by si mel pamatovat, s jaky nastavenim portalu hrac skoncil. Pri naslednem prihlaseni se objevi prave toto nastaveni. (tj. jakou hru, jaky jazyk ma uzivatel rad:-))
   - Data. Pokud nemame "spolehliva" data, brat vystupy z predchozich partii. Prvni hrac je na tom nejhur, pro nej se pouzije automaticka procedura - zohlednit pri pocitani skore. Spolehlivost anotace.  Vyzkouset u PlayCoref.   - Data. Pokud nemame "spolehliva" data, brat vystupy z predchozich partii. Prvni hrac je na tom nejhur, pro nej se pouzije automaticka procedura - zohlednit pri pocitani skore. Spolehlivost anotace.  Vyzkouset u PlayCoref.
 +  - U kazde verze pro dva hrace, dat v okne, kdy ceka hrac ceka na protihrace, moznost, aby mohl okamzite zacit hrat single verzi.
   - Shannon Game   - Shannon Game
     * Pro jednoho hrace.     * Pro jednoho hrace.
Line 43: Line 44:
  
   * **Ukoly pro Jirku**    * **Ukoly pro Jirku** 
-   - Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby "free", ale jazykově spíš nepoužitelná), druhá novější na serveru http://ld.johanesville.net/doyle-06-studie-v-sarlatove?page=1, ale nic tam nepíšou o roku překladu a o autorských právech; o autorském právu ale píšu níže v samostatné sekci)+   :-D Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby "free", ale jazykově spíš nepoužitelná), druhá novější na serveru http://ld.johanesville.net/doyle-06-studie-v-sarlatove?page=1, ale nic tam nepíšou o roku překladu a o autorských právech; o autorském právu ale píšu níže v samostatné sekci)
    - Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna)    - Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna)
    - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//)    - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//)
-   - vypsat projekty (//Do konce unora//)+   :-D "podstrcit" ceskeho Doyla anotatorum (//Na zacatku brezna//) 
 +   - :-D vypsat projekty (//Do konce unora//--> viz [[http://ufal.mff.cuni.cz/~mirovsky/vyuka/Nabidka_rocnikovych_projektu.html|http://ufal.mff.cuni.cz/~mirovsky/vyuka/Nabidka_rocnikovych_projektu.html]]
   * **Ukoly pro Baru**   * **Ukoly pro Baru**
-   - :-sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//)+   - :-sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//)
    - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//)    - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//)
    - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn ''\playlang_UFAL\doc\papers\2011_PBML_96''    - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn ''\playlang_UFAL\doc\papers\2011_PBML_96''
-   vypsat rocnikove projekty (//Do konce unora//) +   :-D sepsat pozadavky na funkcnost LGame a dle nich formulovat pozadavky na vizualizaci - :-D oslovit Michala Sotkovskeho (//Do 15. unora//-- Mi**chal nema cas:-(** 
-     implementace Place the Space pro iPhone Android +      Konzistence - obsah prostredi pro jednotlive hry shodne. Designem jednotlive hry odlisit. 
-     nova hrakoherence textu: na urovni vety: prehazet poradi slov ve vete, uzivatel rekonstruuje puvodni poradek slov ve vete implementovat pro iPhoneAndroid.+      - Pro kazdou hru musi existovat 
 +         - Verze pro jednoho dva hrace (system). 
 +         How to play (text). 
 +         - Demo (animace). 
 +         - Hrej! ("tlacitko"). 
 +         - Poradi hracu (seznam). 
 +         - V pripade hrace pro dva, neni-li druhy hrac k dispozici, dat moznost zahrat si single verzi (system). 
 +         - Jazykove mutace - v jakych jazycich je hru mozne hrat. Defaultcestina a anglictina. Designeme rozlisit jednotlive jazykove mutace takaby uzivatel pohledem na screen poznal, ze je v ceskem prostredi. 
 +      3Design prizpusobit sirokouhlym monitorum. Minimalizovat usili uzivatele na scrolovani. Nejlepe, videt vse najednou. 
 +   - :-D na hlavni stranku dat informaci o textech, se kterymi se hraje (//Do 15. unora//) 
 +   - :-D vypsat rocnikove projekty (//Do konce unora//) --> viz [[http://ufal.mff.cuni.cz/~hladka/dp.html|http://ufal.mff.cuni.cz/~hladka/dp.html]]
   * **Ukoly pro Vladimira**   * **Ukoly pro Vladimira**
    - zmenit proporce na strankach LGame tak, aby uzivatel nemusel scrollovat, aby videl napriklad odkayz pod hlavnim oknem (//Do konce ledna//)    - zmenit proporce na strankach LGame tak, aby uzivatel nemusel scrollovat, aby videl napriklad odkayz pod hlavnim oknem (//Do konce ledna//)
- 
  
   * Pro kazdou hru mit automatickou proceduru, ktera se nasadi jako (virtualni) protihrac.   * Pro kazdou hru mit automatickou proceduru, ktera se nasadi jako (virtualni) protihrac.
Line 93: Line 104:
     - Design her, 20 tis.     - Design her, 20 tis.
   - Naklady na prezentaci, 20 tis.   - Naklady na prezentaci, 20 tis.
-  - LGame hosting, cca 2 tis. (nevim presne)+  - LGame hosting, 1 800 Kc (viz nize) 
 + 
 +---- 
 + 
 +Z''adame Vas proto o uhrazeni platby s temito parametry: 
 + 
 +Ucet:              1061626001/5500 (Raiffeisenbank) 
 +Castka:            1800,00 Kc 
 +Variabilni symbol: 33922011 
 +Konstantni symbol: ponechte prazdny nebo 0558 
 + 
 +Podrobny rozpis sluzeb: 
 + 
 +Cena (s DPH)   Popis sluzby 
 + 
 + 1200,00 Kc  Hosting domeny lgame.cz 12 mesicu v hostingovem programu Cesky hosting 
 +  300,00 Kc  Udrzovaci poplatek domeny lgame.cz na 12 mesicu 
 +  300,00 Kc  Udrzovaci poplatek domeny lgame.eu na 12 mesicu 
 + 
 +Celkem k uhrade (vcetne DPH): 1800,00 Kc'' 
 + 
 +---- 
  
 ====== Motivation ====== ====== Motivation ======
Line 240: Line 273:
  
 ==== Převod dat z prostého textu do formátu playlang: ==== ==== Převod dat z prostého textu do formátu playlang: ====
 +
 +=== Převod pro PlayCoref ===
 Využíváme analýzu v modulárním systému TectoMT. Využíváme analýzu v modulárním systému TectoMT.
  
 Postup při zpracování české verze Studie v Šarlatové byl tento: Postup při zpracování české verze Studie v Šarlatové byl tento:
-  - do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná +  - Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná. 
-  - následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT +  - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT; použil jsem i bloky pro přidání gramatické koreference. 
-  - ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény +  - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: ''personal/mirovsky/coreference/sc_CzNEMWRecognition.scen''.) 
-  - nalezené pojmenované entity jsem vyextrahoval pomocí skriptu ''ne_atrees_to_txt.pl'' do textového souboru; z něj pak jdou později vložit do stejných dat v jiném formátu než tmt +  - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu ''ne_atrees_to_txt.pl'' do textového souboru; z něj pak jdou později vložit do stejných dat v jiném formátu než tmt (pro mne je to schůdnější cesta než psát/upravovat přímou konverzi z tmt do pdt tak, aby uměla i pojmenované entity). 
-  - +  - Pak nastává převod do formátu PDT. Používám skript z TectoMT->''tools/format_convertors/tmt_to_pdt'': 
 +     * ''tmt-to-pdt.pl -a amdata_schema.xml soubor.tmt'' ... vznikne t-soubor a a-soubor s vloženými m a w rovinami; tento a-soubor dále filtruji a získávám z něj samostatné w- a m-soubory (používám vlastní skripty ''ma_to_w.pl'' a ''ma_to_m.pl'' (PlayLang->''playcoref/scripts/tmt_to_pdt''
 +     * ''tmt-to-pdt.pl soubor.tmt'' ... spustím to znovu bez přepínače, tak získám čistý a-soubor 
 +     * V takto získaných datech je ještě potřeba upravit identifikátory (vlastní skripty ''fix_id_ta.pl'' a ''fix_id_mw.pl'' + drobné ruční úpravy). 
 +     * Pozor, skript hledá elementy SCzech*, proto pro anglický text je nejdřív potřeba nahradit v tmt souboru výskyty SEnglish za SCzech! 
 + 
 +=== Převod pro Shannona a Place the Space === 
 +Je potřeba převádět jinak, neboť v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. Automatické doplnění není spolehlivé. 
 + 
 +**Pro češtinu** proto používám tool-chain z projektu ČAK. Bohužel mi nefunguje (a nevím proč) tool-chain až na a-rovinu, a tak ho používám jen na m-rovinu, navíc jen v csts. Ale to pro tyto účely stačí! Vstupní text musí být v ISO-LATIN-2, což znamená, že některé znaky (spodní a horní uvozovky, dlouhé pomlčky a další) je potřeba napřed nahradit standardními ekvivalenty. Tokenizer je v tool-chainu lepší než v TectoMT, a tak není potřeba dávat tečky za nadpisy a lépe se vypořádá s tečkami uprostřed vět. Nový řádek znamená konec věty - ve vstupním textu tedy nesmí být věty přerušeny novým řádkem; nový odstavec bude tam, kde je ve vstupním textu prázdný řádek. 
 + 
 +Vzniklý csts soubor převedu do UTF-8, pomocí skriptu PlayLang->''playcoref/scripts/txt_to_csts/_csts_fill_ids.pl'' dodělám id k elementům <f> a <d>; následně vyberu věty minimální délky 6 (a pro Shannona bez interpunkce) pomocí skriptu PlayLang->''playcoref/scripts/_csts_filter_sentences.pl''. (Id-čka předtím ještě zkracuju (aby byla jen pXsYwZ) a také nahrazuju elementy <MD[lt] src="m"> pouhými <[lt]>.)
  
 ==== Zobrazení v Tredu: ==== ==== Zobrazení v Tredu: ====

[ Back to the navigation ] [ Back to the content ]