[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:hladka:playlang [2011/01/24 11:19]
ufal
user:hladka:playlang [2011/03/02 09:54] (current)
hladka
Line 25: Line 25:
 ==== Portal LGame ==== ==== Portal LGame ====
   * **Ukoly pro Honzu**    * **Ukoly pro Honzu** 
-  - Presun LGame na novy server. Realizace s Milanem Fucikem. (//Do konce ledna//)+  -=) ''http://lgame.ms.mff.cuni.cz/lgame'' Presun LGame na novy server. Realizace s Milanem Fucikem. (//Do konce ledna//)
     * JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou.     * JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou.
   - Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, napr. thajstina --> anglictina). Zaroven to znamena, zase az na vyjimky, ze s texty prislusneho jazyka chce hrac hrat. Proto doplnit vlajecky k demum. (//Do 4. unora)//)   - Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, napr. thajstina --> anglictina). Zaroven to znamena, zase az na vyjimky, ze s texty prislusneho jazyka chce hrac hrat. Proto doplnit vlajecky k demum. (//Do 4. unora)//)
     * JK: Pridavani novych jazykovych verzi her je uz ted docela dobre navrzene, co se Flashe tyce, tak to nepotrebuje menit program, staci, kdyz se prida dalsi xml s prekladem jednotlivych popisku GUI. V PHP by to take nemelo vyzadovat vetsi zasahy (co se API jednotlivych her tyce).     * JK: Pridavani novych jazykovych verzi her je uz ted docela dobre navrzene, co se Flashe tyce, tak to nepotrebuje menit program, staci, kdyz se prida dalsi xml s prekladem jednotlivych popisku GUI. V PHP by to take nemelo vyzadovat vetsi zasahy (co se API jednotlivych her tyce).
-  - Na vhodnych forech hledat designera. (Vyvesit inzerat //do konce ledna//)+  - :-D Na vhodnych forech hledat designera. (Vyvesit inzerat //do konce ledna//)
   - Zvetsit velikost hracich oken ve spolupraci s Vladimirem. (//Do 25. ledna//)   - Zvetsit velikost hracich oken ve spolupraci s Vladimirem. (//Do 25. ledna//)
   - Programatorska dokumentace. (//Do konce unora//)   - Programatorska dokumentace. (//Do konce unora//)
-  - Export dat ze souteze PlayCoref --> preslat Jirkovi. (//Do konce ledna//)+  - :-D Export dat ze souteze PlayCoref --> preslat Jirkovi. (//Do konce ledna//)
   - Uzivatelske zprijemneni. System by si mel pamatovat, s jaky nastavenim portalu hrac skoncil. Pri naslednem prihlaseni se objevi prave toto nastaveni. (tj. jakou hru, jaky jazyk ma uzivatel rad:-))   - Uzivatelske zprijemneni. System by si mel pamatovat, s jaky nastavenim portalu hrac skoncil. Pri naslednem prihlaseni se objevi prave toto nastaveni. (tj. jakou hru, jaky jazyk ma uzivatel rad:-))
   - Data. Pokud nemame "spolehliva" data, brat vystupy z predchozich partii. Prvni hrac je na tom nejhur, pro nej se pouzije automaticka procedura - zohlednit pri pocitani skore. Spolehlivost anotace.  Vyzkouset u PlayCoref.   - Data. Pokud nemame "spolehliva" data, brat vystupy z predchozich partii. Prvni hrac je na tom nejhur, pro nej se pouzije automaticka procedura - zohlednit pri pocitani skore. Spolehlivost anotace.  Vyzkouset u PlayCoref.
 +  - U kazde verze pro dva hrace, dat v okne, kdy ceka hrac ceka na protihrace, moznost, aby mohl okamzite zacit hrat single verzi.
   - Shannon Game   - Shannon Game
     * Pro jednoho hrace.     * Pro jednoho hrace.
Line 43: Line 44:
  
   * **Ukoly pro Jirku**    * **Ukoly pro Jirku** 
-   - Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby "free", ale jazykově spíš nepoužitelná), druhá novější na serveru http://ld.johanesville.net/doyle-06-studie-v-sarlatove?page=1, ale nic tam nepíšou o roku překladu a o autorských právech)+   :-D Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby "free", ale jazykově spíš nepoužitelná), druhá novější na serveru http://ld.johanesville.net/doyle-06-studie-v-sarlatove?page=1, ale nic tam nepíšou o roku překladu a o autorských právech; o autorském právu ale píšu níže v samostatné sekci)
    - Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna)    - Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna)
    - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//)    - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//)
-   - vypsat projekty (//Do konce unora//)+   :-D "podstrcit" ceskeho Doyla anotatorum (//Na zacatku brezna//) 
 +   - :-D vypsat projekty (//Do konce unora//--> viz [[http://ufal.mff.cuni.cz/~mirovsky/vyuka/Nabidka_rocnikovych_projektu.html|http://ufal.mff.cuni.cz/~mirovsky/vyuka/Nabidka_rocnikovych_projektu.html]]
   * **Ukoly pro Baru**   * **Ukoly pro Baru**
-   - sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//)+   :-D sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//)
    - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//)    - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//)
    - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn ''\playlang_UFAL\doc\papers\2011_PBML_96''    - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn ''\playlang_UFAL\doc\papers\2011_PBML_96''
-   vypsat rocnikove projekty (//Do konce unora//) +   :-D sepsat pozadavky na funkcnost LGame a dle nich formulovat pozadavky na vizualizaci - :-D oslovit Michala Sotkovskeho (//Do 15. unora//-- Mi**chal nema cas:-(** 
-     implementace Place the Space pro iPhone Android +      Konzistence - obsah prostredi pro jednotlive hry shodne. Designem jednotlive hry odlisit. 
-     nova hrakoherence textu: na urovni vety: prehazet poradi slov ve vete, uzivatel rekonstruuje puvodni poradek slov ve vete implementovat pro iPhoneAndroid.+      - Pro kazdou hru musi existovat 
 +         - Verze pro jednoho dva hrace (system). 
 +         How to play (text). 
 +         - Demo (animace). 
 +         - Hrej! ("tlacitko"). 
 +         - Poradi hracu (seznam). 
 +         - V pripade hrace pro dva, neni-li druhy hrac k dispozici, dat moznost zahrat si single verzi (system). 
 +         - Jazykove mutace - v jakych jazycich je hru mozne hrat. Defaultcestina a anglictina. Designeme rozlisit jednotlive jazykove mutace takaby uzivatel pohledem na screen poznal, ze je v ceskem prostredi. 
 +      3Design prizpusobit sirokouhlym monitorum. Minimalizovat usili uzivatele na scrolovani. Nejlepe, videt vse najednou. 
 +   - :-D na hlavni stranku dat informaci o textech, se kterymi se hraje (//Do 15. unora//) 
 +   - :-D vypsat rocnikove projekty (//Do konce unora//) --> viz [[http://ufal.mff.cuni.cz/~hladka/dp.html|http://ufal.mff.cuni.cz/~hladka/dp.html]]
   * **Ukoly pro Vladimira**   * **Ukoly pro Vladimira**
    - zmenit proporce na strankach LGame tak, aby uzivatel nemusel scrollovat, aby videl napriklad odkayz pod hlavnim oknem (//Do konce ledna//)    - zmenit proporce na strankach LGame tak, aby uzivatel nemusel scrollovat, aby videl napriklad odkayz pod hlavnim oknem (//Do konce ledna//)
- 
  
   * Pro kazdou hru mit automatickou proceduru, ktera se nasadi jako (virtualni) protihrac.   * Pro kazdou hru mit automatickou proceduru, ktera se nasadi jako (virtualni) protihrac.
Line 66: Line 77:
  
 ==== Autorské právo ==== ==== Autorské právo ====
- +Originální anglické verze děl sira Arthura Conana Doyla je možno používat volně.
-Originální verze děl sira Arthura Conana Doyla je možno používat volně.+
 U modernějších českých překladů se musíme řídit zákonem o autorském právu. U modernějších českých překladů se musíme řídit zákonem o autorském právu.
 Našel jsem Zákon č. 398/2006 Sb. - úplné znění zákona č. 121 /2000 Sb.; výňatek z tohoto zákona, který se nás týká: Našel jsem Zákon č. 398/2006 Sb. - úplné znění zákona č. 121 /2000 Sb.; výňatek z tohoto zákona, který se nás týká:
Line 74: Line 84:
 (1) Do práva autorského nezasahuje ten, kdo (1) Do práva autorského nezasahuje ten, kdo
 a) užije v odůvodněné míře výňatky ze zveřejněných děl jiných autorů ve svém díle, a) užije v odůvodněné míře výňatky ze zveřejněných děl jiných autorů ve svém díle,
-b) užije výňatky z díla nebo drobná celá díla pro účely kritiky nebo recenze vztahující se k takovému dílu, vědecké či odborné tvorby a takové užití bude v souladu s poctivými zvyklostmi a v rozsahu vyžadovaném konkrétním účelem, +b) **užije výňatky z díla nebo drobná celá díla pro účely** kritiky nebo recenze vztahující se k takovému dílu, **vědecké či odborné tvorby a takové užití bude v souladu s poctivými zvyklostmi a v rozsahu vyžadovaném konkrétním účelem,** 
-c) užije dílo při vyučování pro ilustrační účel nebo při vědeckém výzkumu, jejichž účelem není dosažení přímého nebo nepřímého hospodářského nebo obchodního prospěchu, a nepřesáhne rozsah odpovídající sledovanému účelu; +c) **užije dílo** při vyučování pro ilustrační účel nebo **při vědeckém výzkumu, jejichž účelem není dosažení přímého nebo nepřímého hospodářského nebo obchodního prospěchu, a nepřesáhne rozsah odpovídající sledovanému účelu;** 
-vždy je však nutno uvést, je-li to možné, jméno autora, nejde-li o dílo anonymní, nebo jméno osoby, pod jejímž jménem se dílo uvádí na veřejnost, a dále název díla a pramen.+**vždy je však nutno uvést, je-li to možné, jméno autora,** nejde-li o dílo anonymní, nebo jméno osoby, pod jejímž jménem se dílo uvádí na veřejnost, **a dále název díla a pramen.**
 (2) Do práva autorského nezasahuje ani ten, kdo výňatky z díla nebo drobná celá díla citovaná podle odstavce 1 písm. a) nebo b) dále užije; ustanovení odstavce 1 části věty za středníkem platí obdobně. (2) Do práva autorského nezasahuje ani ten, kdo výňatky z díla nebo drobná celá díla citovaná podle odstavce 1 písm. a) nebo b) dále užije; ustanovení odstavce 1 části věty za středníkem platí obdobně.
  
 +**Závěr JM:** Pro naše účely můžeme i novější český překlad použít; měli bychom ale pod nějaký odkaz dát jméno autora překladu a odkaz, odkud jsme to stáhli.
  
 ==== Prezentace, demonstrace, publikace ==== ==== Prezentace, demonstrace, publikace ====
Line 93: Line 104:
     - Design her, 20 tis.     - Design her, 20 tis.
   - Naklady na prezentaci, 20 tis.   - Naklady na prezentaci, 20 tis.
-  - LGame hosting, cca 2 tis. (nevim presne)+  - LGame hosting, 1 800 Kc (viz nize) 
 + 
 +---- 
 + 
 +Z''adame Vas proto o uhrazeni platby s temito parametry: 
 + 
 +Ucet:              1061626001/5500 (Raiffeisenbank) 
 +Castka:            1800,00 Kc 
 +Variabilni symbol: 33922011 
 +Konstantni symbol: ponechte prazdny nebo 0558 
 + 
 +Podrobny rozpis sluzeb: 
 + 
 +Cena (s DPH)   Popis sluzby 
 + 
 + 1200,00 Kc  Hosting domeny lgame.cz 12 mesicu v hostingovem programu Cesky hosting 
 +  300,00 Kc  Udrzovaci poplatek domeny lgame.cz na 12 mesicu 
 +  300,00 Kc  Udrzovaci poplatek domeny lgame.eu na 12 mesicu 
 + 
 +Celkem k uhrade (vcetne DPH): 1800,00 Kc'' 
 + 
 +---- 
  
 ====== Motivation ====== ====== Motivation ======
Line 238: Line 271:
 == Převod rozšířené a-roviny do rozšířeného csts == == Převod rozšířené a-roviny do rozšířeného csts ==
   * ''convert_atrees_to_csts.ntred'' - skript pro převod rozšířené a-roviny obsahující koreferenci (a případně pojmenované entity) do rozšířeného csts   * ''convert_atrees_to_csts.ntred'' - skript pro převod rozšířené a-roviny obsahující koreferenci (a případně pojmenované entity) do rozšířeného csts
 +
 +==== Převod dat z prostého textu do formátu playlang: ====
 +
 +=== Převod pro PlayCoref ===
 +Využíváme analýzu v modulárním systému TectoMT.
 +
 +Postup při zpracování české verze Studie v Šarlatové byl tento:
 +  - Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná.
 +  - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT; použil jsem i bloky pro přidání gramatické koreference.
 +  - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: ''personal/mirovsky/coreference/sc_CzNEMWRecognition.scen''.)
 +  - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu ''ne_atrees_to_txt.pl'' do textového souboru; z něj pak jdou později vložit do stejných dat v jiném formátu než tmt (pro mne je to schůdnější cesta než psát/upravovat přímou konverzi z tmt do pdt tak, aby uměla i pojmenované entity).
 +  - Pak nastává převod do formátu PDT. Používám skript z TectoMT->''tools/format_convertors/tmt_to_pdt'':
 +     * ''tmt-to-pdt.pl -a amdata_schema.xml soubor.tmt'' ... vznikne t-soubor a a-soubor s vloženými m a w rovinami; tento a-soubor dále filtruji a získávám z něj samostatné w- a m-soubory (používám vlastní skripty ''ma_to_w.pl'' a ''ma_to_m.pl'' (PlayLang->''playcoref/scripts/tmt_to_pdt'')
 +     * ''tmt-to-pdt.pl soubor.tmt'' ... spustím to znovu bez přepínače, tak získám čistý a-soubor
 +     * V takto získaných datech je ještě potřeba upravit identifikátory (vlastní skripty ''fix_id_ta.pl'' a ''fix_id_mw.pl'' + drobné ruční úpravy).
 +     * Pozor, skript hledá elementy SCzech*, proto pro anglický text je nejdřív potřeba nahradit v tmt souboru výskyty SEnglish za SCzech!
 +
 +=== Převod pro Shannona a Place the Space ===
 +Je potřeba převádět jinak, neboť v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. Automatické doplnění není spolehlivé.
 +
 +**Pro češtinu** proto používám tool-chain z projektu ČAK. Bohužel mi nefunguje (a nevím proč) tool-chain až na a-rovinu, a tak ho používám jen na m-rovinu, navíc jen v csts. Ale to pro tyto účely stačí! Vstupní text musí být v ISO-LATIN-2, což znamená, že některé znaky (spodní a horní uvozovky, dlouhé pomlčky a další) je potřeba napřed nahradit standardními ekvivalenty. Tokenizer je v tool-chainu lepší než v TectoMT, a tak není potřeba dávat tečky za nadpisy a lépe se vypořádá s tečkami uprostřed vět. Nový řádek znamená konec věty - ve vstupním textu tedy nesmí být věty přerušeny novým řádkem; nový odstavec bude tam, kde je ve vstupním textu prázdný řádek.
 +
 +Vzniklý csts soubor převedu do UTF-8, pomocí skriptu PlayLang->''playcoref/scripts/txt_to_csts/_csts_fill_ids.pl'' dodělám id k elementům <f> a <d>; následně vyberu věty minimální délky 6 (a pro Shannona bez interpunkce) pomocí skriptu PlayLang->''playcoref/scripts/_csts_filter_sentences.pl''. (Id-čka předtím ještě zkracuju (aby byla jen pXsYwZ) a také nahrazuju elementy <MD[lt] src="m"> pouhými <[lt]>.)
  
 ==== Zobrazení v Tredu: ==== ==== Zobrazení v Tredu: ====

[ Back to the navigation ] [ Back to the content ]