[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:hladka:playlang [2009/03/27 11:24]
mirovsky
user:hladka:playlang [2011/03/02 09:54] (current)
hladka
Line 1: Line 1:
-====== HOT ISSUES ====== + 
-   * **26dubna** je termin na podani short papers na [[http://www.acl-ijcnlp-2009.org/|ACL 09]]. Nas prispevek bude obsahovat + 
-      motivaciproc games na anotaci textu +====== Plan 2011 ====== 
-      koncepci portalu www.lgame.cz + 
-         * Shannon game + 
-         * Place the Space + 
-         * PlayCorefPlayNEPlayDocLabel +====  Rekapitulace 2010 ==== 
-         * sledovani uspesnosti automatickych procedur zavislosti na datech +   na portalu prezentovany tri hry: Shannon Game (pro dva hrace), Place the Space (pro jednoho hrace), PlayCoref (pro jednoho a pro dva hrace) 
-      * dale viz [[https://wiki.ufal.ms.mff.cuni.cz/user:hladka:playcoref#acl-ijcnlp2009]] +   vsechny tri hratelne v anglictine s vetami a s odstavci z Sherlocka Holmese 
-   * [[PlayCoref]] +   * pro kazdou hru existuje demo cesky i anglicky a //how to play// pruvodce anglicky, pro Shannona i cesky 
-   * [[Place the Space]]+   * prvni predstaveni portalu sirsi odborne verejnosti [[Play the Language Competition]], december 2010 
 + 
 + 
 + 
 +==== Tym ==== 
 +  * Barbora Hladka (koordinace) 
 +  * Jiri Mirovsky (data) 
 +  * Jan Kohout (implementace her) 
 +  * Vladimir Rovensky (sprava LGame) 
 + 
 +====  Schuzky  2011 ==== 
 +   31ledna, 11:30, chodba k S1 
 + 
 + 
 +==== Portal LGame ==== 
 +  * **Ukoly pro Honzu**  
 +  -=) ''http://lgame.ms.mff.cuni.cz/lgame'' Presun LGame na novy server. Realizace s Milanem Fucikem. (//Do konce ledna//) 
 +    * JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou. 
 +  - Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, napr. thajstina --> anglictina). Zaroven to znamena, zase az na vyjimky, ze s texty prislusneho jazyka chce hrac hrat. Proto doplnit vlajecky k demum. (//Do 4. unora)//) 
 +    * JK: Pridavani novych jazykovych verzi her je uz ted docela dobre navrzene, co se Flashe tyce, tak to nepotrebuje menit program, staci, kdyz se prida dalsi xml s prekladem jednotlivych popisku GUI. V PHP by to take nemelo vyzadovat vetsi zasahy (co se API jednotlivych her tyce). 
 +  - :-D Na vhodnych forech hledat designera. (Vyvesit inzerat //do konce ledna//) 
 +  - Zvetsit velikost hracich oken ve spolupraci s Vladimirem. (//Do 25. ledna//) 
 +  - Programatorska dokumentace. (//Do konce unora//) 
 +  - :-D Export dat ze souteze PlayCoref --> preslat Jirkovi. (//Do konce ledna//) 
 +  - Uzivatelske zprijemneni. System by si mel pamatovat, s jaky nastavenim portalu hrac skoncil. Pri naslednem prihlaseni se objevi prave toto nastaveni. (tj. jakou hru, jaky jazyk ma uzivatel rad:-)) 
 +  - Data. Pokud nemame "spolehliva" data, brat vystupy z predchozich partii. Prvni hrac je na tom nejhur, pro nej se pouzije automaticka procedura - zohlednit pri pocitani skore. Spolehlivost anotace.  Vyzkouset u PlayCoref. 
 +  - U kazde verze pro dva hrace, dat v okne, kdy ceka hrac ceka na protihrace, moznost, aby mohl okamzite zacit hrat single verzi. 
 +  - Shannon Game 
 +    * Pro jednoho hrace. 
 +    * Ze stareho svn repozitare vytahnout zdrojak Shannona. 
 +  - Place the Space 
 +    * Implementovat verzi pro dva hrace. 
 +    * Podrobnosti na strance [[Place the space]].  
 + 
 +  * **Ukoly pro Jirku**  
 +   - :-D Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby "free", ale jazykově spíš nepoužitelná), druhá novější na serveru http://ld.johanesville.net/doyle-06-studie-v-sarlatove?page=1, ale nic tam nepíšou o roku překladu a o autorských právech; o autorském právu ale píšu níže v samostatné sekci) 
 +   - Thajske texty pro PtS(ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna) 
 +   - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//) 
 +   - :-D "podstrcit" ceskeho Doyla anotatorum (//Na zacatku brezna//) 
 +   - :-D vypsat projekty (//Do konce unora//) --> viz [[http://ufal.mff.cuni.cz/~mirovsky/vyuka/Nabidka_rocnikovych_projektu.html|http://ufal.mff.cuni.cz/~mirovsky/vyuka/Nabidka_rocnikovych_projektu.html]] 
 +  **Ukoly pro Baru** 
 +   - :-D sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//) 
 +   - promluvit s Nathanem Greenem - on ma rovnez nejake hrysnad i pro Named Entity. (//Do konce ledna//) 
 +   - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn ''\playlang_UFAL\doc\papers\2011_PBML_96'' 
 +   - :-D sepsat pozadavky na funkcnost LGame a dle nich formulovat pozadavky na vizualizaci - :-D oslovit Michala Sotkovskeho (//Do 15. unora//) -- Mi**chal nema cas:-(** 
 +      - Konzistence - obsah prostredi pro jednotlive hry shodneDesignem jednotlive hry odlisit. 
 +      - Pro kazdou hru musi existovat 
 +         - Verze pro jednoho a dva hrace (system). 
 +         - How to play (text). 
 +         - Demo (animace). 
 +         - Hrej! ("tlacitko"). 
 +         - Poradi hracu (seznam). 
 +         - V pripade hrace pro dvaneni-li druhy hrac k dispozicidat moznost zahrat si single verzi (system). 
 +         - Jazykove mutace - jakych jazycich je hru mozne hrat. Default: cestina a anglictina. Designeme rozlisit jednotlive jazykove mutace tak, aby uzivatel pohledem na screen poznal, ze je v ceskem prostredi. 
 +      - 3, Design prizpusobit sirokouhlym monitorum. Minimalizovat usili uzivatele na scrolovani. Nejlepe, videt vse najednou. 
 +   - :-D na hlavni stranku dat informaci o textech, se kterymi se hraje (//Do 15. unora//) 
 +   - :-D vypsat rocnikove projekty (//Do konce unora//) --> viz [[http://ufal.mff.cuni.cz/~hladka/dp.html|http://ufal.mff.cuni.cz/~hladka/dp.html]] 
 +  * **Ukoly pro Vladimira** 
 +   - zmenit proporce na strankach LGame tak, aby uzivatel nemusel scrollovat, aby videl napriklad odkayz pod hlavnim oknem (//Do konce ledna//) 
 +— 
 +  Pro kazdou hru mit automatickou proceduru, ktera se nasadi jako (virtualni) protihrac. 
 +  * Nove hry 
 +    * Pojmenovane entity - viz [[PlayNE]]
 +    * Koherence vety/odstavce. Na vstupu prehazena slova vety, hrac je usporada dle jeho citu "spravne". Na urovni odstavcu by se zamichalo s poradim vet. 
 +    * ... 
 +   * **Vypsat rocnikove projekty, bakalarky, diplomky!** VOlnost v technologiich, ale pozor na PLUGINS!!! 
 + 
 +==== Autorské právo ==== 
 +Originální anglické verze děl sira Arthura Conana Doyla je možno používat volně. 
 +U modernějších českých překladů se musíme řídit zákonem o autorském právu. 
 +Našel jsem Zákon č. 398/2006 Sb. - úplné znění zákona č. 121 /2000 Sb.; výňatek z tohoto zákona, který se nás týká: 
 + 
 +§31 - Citace 
 +(1) Do práva autorského nezasahuje ten, kdo 
 +a) užije v odůvodněné míře výňatky ze zveřejněných děl jiných autorů ve svém díle, 
 +b) **užije výňatky z díla nebo drobná celá díla pro účely** kritiky nebo recenze vztahující se k takovému dílu, **vědecké či odborné tvorby a takové užití bude v souladu s poctivými zvyklostmi a v rozsahu vyžadovaném konkrétním účelem,** 
 +c) **užije dílo** při vyučování pro ilustrační účel nebo **při vědeckém výzkumu, jejichž účelem není dosažení přímého nebo nepřímého hospodářského nebo obchodního prospěchu, a nepřesáhne rozsah odpovídající sledovanému účelu;** 
 +**vždy je však nutno uvést, je-li to možné, jméno autora,** nejde-li o dílo anonymní, nebo jméno osoby, pod jejímž jménem se dílo uvádí na veřejnost, **a dále název díla a pramen.** 
 +(2) Do práva autorského nezasahuje ani ten, kdo výňatky z díla nebo drobná celá díla citovaná podle odstavce 1 písm. a) nebo b) dále užije; ustanovení odstavce 1 části věty za středníkem platí obdobně. 
 + 
 +**Závěr JM:** Pro naše účely můžeme i novější český překlad použít; měli bychom ale pod nějaký odkaz dát jméno autora překladu a odkaz, odkud jsme to stáhli. 
 + 
 +==== Prezentace, demonstrace, publikace ==== 
 +  * GACR 2012 (po trech neuspesnych pokusech frustrace, ale ... ) 
 +  * PBML 96, rozsah: 20 stranek, deadline: May 30, 2011. 
 +  * [[http://www.ijcnlp2011.org/|IJCNLP]], Chiang Mai, Thailand, Nov 8-13, System Demo, deadline: May 20, 2011. 
 +  * ... 
 + 
 +==== Finance ==== 
 +  - OON 
 +    - Jan Kohout, student, 24 tis. 
 +    - Vladimir Rovensky, student, 5 tis. 
 +  - Sluzby 
 +    - Design her, 20 tis. 
 +  - Naklady na prezentaci, 20 tis. 
 +  - LGame hosting, 1 800 Kc (viz nize) 
 ---- ----
-   * Projit si hry, ktere vydavaji velka vydavatelstvi (Hasbro, ...) a hledat motivaci. 
----- 
-   * Ze setkani 28. listopadu 2008 
-      * Pavel: muze zacit s experimenty 
-      * 8-) Jirka: Prevod koreference v tektogramatickych stromech anotovanych Anjou a kol. do povrchu - viz nize oddil Data Format for the Project Play the Language 
-      * 8-) Bara: najit studenty k implementaci prvnich dvou her z casti 'Ideas' a zadat je k reseni. //Prvni hru jiz zacal implementovat student Jan Kohout.// 
-      * Trac system -  jak to s nim je? 
-         * [[http://trac.edgewall.org/|Documentation]] 
-      * Pamatovat si: 
-         * Pracovat s texty v kodovani UTF-8. 
  
 +Z''adame Vas proto o uhrazeni platby s temito parametry:
  
 +Ucet:              1061626001/5500 (Raiffeisenbank)
 +Castka:            1800,00 Kc
 +Variabilni symbol: 33922011
 +Konstantni symbol: ponechte prazdny nebo 0558
 +
 +Podrobny rozpis sluzeb:
 +
 +Cena (s DPH)   Popis sluzby
 +
 + 1200,00 Kc  Hosting domeny lgame.cz 12 mesicu v hostingovem programu Cesky hosting
 +  300,00 Kc  Udrzovaci poplatek domeny lgame.cz na 12 mesicu
 +  300,00 Kc  Udrzovaci poplatek domeny lgame.eu na 12 mesicu
 +
 +Celkem k uhrade (vcetne DPH): 1800,00 Kc''
 +
 +----
  
  
 +====== Motivation ======
  
-====== Games with a purpose (GWAP) ======+===== Games with a purpose (GWAP) =====
    *[[http://www.gwap.com|images, tunes]], "nějaká" data z ESP Game a z Peekaboom jsou ke [[http://hunch.net/?cat=17|stažení]] (zalistuj trochu níž)    *[[http://www.gwap.com|images, tunes]], "nějaká" data z ESP Game a z Peekaboom jsou ke [[http://hunch.net/?cat=17|stažení]] (zalistuj trochu níž)
    *[[http://www.ontogame.org|ontologies]] (semantic web)     *[[http://www.ontogame.org|ontologies]] (semantic web) 
Line 38: Line 142:
       - Postradam dynamiku.        - Postradam dynamiku. 
       - Vzdy se ma najit "closest" - nevim, co se stane, kdyz nevyberu nejblizsi.       - Vzdy se ma najit "closest" - nevim, co se stane, kdyz nevyberu nejblizsi.
 +   * [[http://www.hcomp2009.org/Home.html|Human Computation Workshop Paris, France, June 2009]]
  
  
Line 52: Line 157:
  
  
-====== Related initiatives ======+ 
 +===== Related initiatives =====
    *[[http://www.openmind.org/|Open Mind]]    *[[http://www.openmind.org/|Open Mind]]
    *[[https://www.mturk.com/mturk/welcome|Amazon Mechanical Turk]] is an online labor market where workers are paid small amount of money to complete small tasks.    *[[https://www.mturk.com/mturk/welcome|Amazon Mechanical Turk]] is an online labor market where workers are paid small amount of money to complete small tasks.
    *[[http://answers.yahoo.com/|Yahoo answers]]    *[[http://answers.yahoo.com/|Yahoo answers]]
    *[[http://www.anawiki.org/|ANAWIKI]] - pod timto projektem vznika Phrase Detectives - viz vyse    *[[http://www.anawiki.org/|ANAWIKI]] - pod timto projektem vznika Phrase Detectives - viz vyse
 +   *[[http://www.flash-hry.cz/online-hry/shift.html|Flash hry]] - jak pekne muze vypadat design hry
  
  
Line 69: Line 176:
  
  
-====== Papers to read ======+===== Papers/Videos to read/watch =====
    * (Snow et al., 2008) [[http://ufal.mff.cuni.cz/~hladka/gwap/amt_emnlp08_accepted.pdf|Cheap and Fast - But is it Good? ... ]], Proceedings of the Conference on Empirical Methods in Natural Language Processing, Waikiki, Honolulu, Hawaii, 2008, pp. TBA. ''affect recognition, word similarity, recognizing textual entailment, event temporal ordering, word sense disambiguation''; see discussion at [[http://blog.doloreslabs.com/2008/09/amt-fast-cheap-good-machine-learning/|Dolores' blog]]    * (Snow et al., 2008) [[http://ufal.mff.cuni.cz/~hladka/gwap/amt_emnlp08_accepted.pdf|Cheap and Fast - But is it Good? ... ]], Proceedings of the Conference on Empirical Methods in Natural Language Processing, Waikiki, Honolulu, Hawaii, 2008, pp. TBA. ''affect recognition, word similarity, recognizing textual entailment, event temporal ordering, word sense disambiguation''; see discussion at [[http://blog.doloreslabs.com/2008/09/amt-fast-cheap-good-machine-learning/|Dolores' blog]]
       * Bara's summary:       * Bara's summary:
Line 77: Line 184:
          * when comparing non-expert and expert annotations, one has to say who are the experts!!!! - I miss it in the paper.          * when comparing non-expert and expert annotations, one has to say who are the experts!!!! - I miss it in the paper.
    * [[http://workshops.inf.ed.ac.uk/hjcl/|Coling 2008 workshop on Human judgments in Computational Linguistics]].    * [[http://workshops.inf.ed.ac.uk/hjcl/|Coling 2008 workshop on Human judgments in Computational Linguistics]].
 +   *[[http://video.google.com/videosearch?q=van+Ahn&ie=UTF-8&oe=utf-8&rls=org.mozilla:cs:official&client=firefox-a&um=1&sa=X&oi=video_result_group&resnum=5&ct=title#|Google TechTalks July 26, 2006 Luis von Ahn]]
 +   *[[http://research.google.com/roundtable/HLT.html|Google Technology RoundTable, Mike Cohen, Franz Josef Och]]
  
-====== Ideas ====== +====== Our ideas ====== 
-Date: Fri, 10 Oct 2008 09:42:43 +0200+Date: Fri, 10 Oct 2008 09:42:43 +0200, updated on Tue, 7 Apr 2009
 From: Jiří Mírovský  From: Jiří Mírovský 
  
Line 86: Line 195:
 naladit je na jine, mene zabavne lingvisticke hry. naladit je na jine, mene zabavne lingvisticke hry.
 Plus jedna, ktera by uzitecna byt mohla. Plus jedna, ktera by uzitecna byt mohla.
-   - Hraci dostanou vetu bez mezer mezi slovy a jejich ukolem je nadelat tam mezery, tedy provest tokenizaci. Jediny mozny uplatneni vidim na jazycich jako je thajstina, kde se mezery mezi slovy opravdu nepisou a na konferencich se prednasi o tom, jak to automaticky delat.+   - Hraci dostanou vetu bez mezer mezi slovy a jejich ukolem je nadelat tam mezery, tedy provest tokenizaci. Jediny mozny uplatneni vidim na jazycich jako je thajstina, kde se mezery mezi slovy opravdu nepisou a na konferencich se prednasi o tom, jak to automaticky delat. :-D viz [[Place the space]]
    - Hraci dostanou vetu s prehazenejma slovama (kazdy jinak, nahodne). Jejich cilem je sestavit puvodni vetu. Hraji, dokud se neshodnou, vyhrava ten, kdo to mel driv. Tady uz vubec nevidim zadne vyuziti vlastnich dat, ale mohlo by to fungovat jako reklama na lingvisticke hry, protoze bych rekl, ze tohle hrace bude bavit. Aby to bylo spravedlive, algoritmus na nahodne prehazeni slov by musel byt chytry, aby to prehazel pro oba hrace ruzne, ale stejne obtizne.    - Hraci dostanou vetu s prehazenejma slovama (kazdy jinak, nahodne). Jejich cilem je sestavit puvodni vetu. Hraji, dokud se neshodnou, vyhrava ten, kdo to mel driv. Tady uz vubec nevidim zadne vyuziti vlastnich dat, ale mohlo by to fungovat jako reklama na lingvisticke hry, protoze bych rekl, ze tohle hrace bude bavit. Aby to bylo spravedlive, algoritmus na nahodne prehazeni slov by musel byt chytry, aby to prehazel pro oba hrace ruzne, ale stejne obtizne.
    - Speech reconstruction (nebo jak se tomu odborne rika) - hraci dostanou vetu z rozpoznavace reci a jejich ukolem je udelat z toho standardni ceskou vetu - bez koktani, opakovani apod.    - Speech reconstruction (nebo jak se tomu odborne rika) - hraci dostanou vetu z rozpoznavace reci a jejich ukolem je udelat z toho standardni ceskou vetu - bez koktani, opakovani apod.
 +   - Koherence textu - hráči dostanou text s přeházenými větami - dostanou množinu vět. Cílem je sestavit původní text - seřadit věty. Lucie tvrdí, že to jde vždy, když je text dobře napsaný. Měla na to diplomku. Já tvrdím, že jsou případy, kdy to nejde rozhodnout. Ale hra by z toho mohla být pěkná.
  
  
-====== Video ====== +  * Projit si hry, ktere vydavaji velka vydavatelstvi (Hasbro, ...hledat motivaci.
-   *[[http://video.google.com/videosearch?q=van+Ahn&ie=UTF-8&oe=utf-8&rls=org.mozilla:cs:official&client=firefox-a&um=1&sa=X&oi=video_result_group&resnum=5&ct=title#|Google TechTalks July 26, 2006 Luis von Ahn]] +
-   *[[http://research.google.com/roundtable/HLT.html|Google Technology RoundTable, Mike Cohen, Franz Josef Och]]+
  
-====== Corpora outside their original context ====== 
-   *[[http://ufal.mff.cuni.cz/styx/|Cvičebnice STYX]] 
-   *[[http://mywordcoach.us.ubi.com/|My word coach]] 
  
-====== The Project Directory ======+====== The PlayLang Project ======
  
-/net/work/projects/playlang/+===== Directory structure =====
  
-   * podadresář playcoref+Projekt využívá SVN repozitář, návod k použití zde: 
 +[[https://svn.ms.mff.cuni.cz/projects/PlayLang|https://svn.ms.mff.cuni.cz/projects/PlayLang]]
  
-====== Data Format (and Tred Support) for the Project Play the Language ====== +Samotná textová data nejsou ovšem součástí repozitáře (k pracovní kopii se jen přilinkují, viz návod v odkazu výše), k nalezení jsou zde: 
-Date: Wed, 24 Dec 2008, updated Tue, 6 Jan 2009, again Fri, 27 Mar 2009+ 
 +/net/projects/playlang_shared 
 + 
 +===== Data Format (and Tred Support) for the Project Play the Language ===== 
 +Date: Wed, 24 Dec 2008 
 +Updates: 6 Jan 2009, 27 Mar 2009, 21 Jan 2011
 From: Jiří Mírovský  From: Jiří Mírovský 
  
-==== Návrh formátu pro playlang (minimálně playcoref): rozšíření m-roviny z PDT 2.0 ====+=== Formát souborů pro playlang (minimálně playcoref): rozšíření m-roviny z PDT 2.0 ===
 Důvody: Důvody:
   * automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo   * automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo
Line 115: Line 226:
   * automatické procedury pro předzpracování textů (např. detekce kandidátů pro koreferenci) budou lemmatizaci a morfologii nejspíš potřebovat   * automatické procedury pro předzpracování textů (např. detekce kandidátů pro koreferenci) budou lemmatizaci a morfologii nejspíš potřebovat
   * morfologická rovina jde dobře zobrazit v Tredu   * morfologická rovina jde dobře zobrazit v Tredu
-==== Schéma rozšířené m-roviny: ==== 
-PML schéma je zde: {ROOT}/playcoref/tred_extension/ 
-  * obsahuje rozšíření o seznam struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); přidány už byly atributy: 
-    * type - určuje, o jakou koreferenci jde: textual nebo grammatical 
-    * lock - pro účely hry PlayCoref zamyká či odemyká jednotlivé šipky (hodnoty: locked/unlocked) 
  
-==== Převod dat PDT 2.0 do formátu playlang: ==== +Alternativně používáme také rozšíření a-roviny z PDT 2.0. 
-V adresáři {ROOT}/playcoref/scripts jsou skripty pro převod textové a gramatické koreference z tektogramatické roviny do rozšířené m-roviny:+ 
 +Data pro projekt playlang jsou v adresáři: ''{ROOT}/playcoref/data/shared'' 
 + 
 +==== Schémata rozšířené m-roviny a rozšířené a-roviny: ==== 
 +PML schémata jsou zde: ''{ROOT}/playcoref/tred_extension/package/playlang/resources'' 
 +  * obě schémata (a- i m-) obsahují rozšíření o atribut ''coref'' - seznam struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); obsahuje atributy: 
 +    * ''target-node.rf'' - id antecedenta 
 +    * ''type'' - určuje, o jakou koreferenci jde: textual, grammatical nebo chained (chained znamená: na povrchové rovině je to jeden link, na tekto rovině je to více linků vedoucích přes uzel, který nemá povrchové vyjádření) 
 +    * ''lock'' - pro účely hry PlayCoref zamyká či odemyká jednotlivé šipky (hodnoty: locked/unlocked) 
 +  * dalším rozšířením obou schémat je možnost vkládat informaci o pojmenovaných entitách, a to ve struktuře ''named_entity'' s těmito atributy: 
 +    * ''last_member.rf'' - id uzlu, kde pojmenovaná entita končí (začíná na aktuálním uzlu) 
 +    * ''head_member.rf'' - id uzlu, který je hlavou pojmenované entity 
 + 
 +==== Převod dat PDT 2.0 (rozšíření bridging) do formátu playlang: ==== 
 +V adresáři ''{ROOT}/playcoref/scripts'' jsou skripty pro převod textové a gramatické koreference z rozšířené tektogramatické roviny projektu bridging do rozšířené m-roviny nebo do rozšířené a-roviny: 
 + 
 +== Nejprve se změní schéma souboru (m- nebo a-): == 
 +  * ''_change_mschema_to_playlang.sh'' - změní schéma m-souborů na mdata_schema_playlang.xml 
 +  * ''_change_aschema_to_playlang.sh'' - změní schéma a-souborů na adata_schema_playlang.xml (m-soubor je pak klasický z PDT 2.0) 
 + 
 +== Pak se z rozšířené t-roviny získá seznam koreferenčních dvojic promítnutých na uzly a-roviny nebo m-roviny: == 
 +  * ''coreference_extract_surface_joint.ntred'' - prochází textovou a gramatickou koreferenci na t-rovině z projektu anotování rozšířené textové koreference a vypíše seznam koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-rovině; pokud antecedent nemá povrchové vyjádření, hledá se nejbližší antecedent v řetězci, který povrchové vyjádření má 
 +  * ''coreference_extract_surface_a_joint.ntred'' - totéž, ale pro a-rovinu, tj. vypisují se identifikátory a-uzlů odpovídajících koreferenčním dvojicím z t-roviny 
 + 
 +== Nakonec se koreferenční dvojice z daného seznamu vloží do rozšířeného m-souboru nebo a-souboru: == 
 +  * ''coreference_add_m.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny 
 +  * ''coreference_add_a.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na a-rovině a tyto koreference vkládá do rozšířené a-roviny 
 + 
 +== Některé koreferenční vztahy je možno zamknout: == 
 +  * ''coreference_lock.ntred'' - koreferenční šipky opatří správnými hodnotami atributu lock 
 + 
 +=== Pojmenované entity === 
 +== Nejprve je potřeba získat seznam pojmenovaných entit: == 
 +  * To se provádí v TectoMT (kde se ostatně pojmenované entity v souborech automaticky označí). Skript pro vytvoření seznamu pojmenovaných entit se jmenuje ''ne_atrees_to_txt.pl'' a nachází se v TectoMT repozitáři v adresáři ''personal/mirovsky/coreference''
 + 
 +== Pojmenované entity z vytvořeného seznamu se vloží do rozšířeného a-souboru (zatím nebyl potřeba skript i pro m-soubor): == 
 +  * ''named_entities_add_a.ntred'' - ze seznamu bere id uzlů a informaci o pojmenovaných entitách vkládá do rozšířené a- nebo m-roviny 
 + 
 +=== Vkládání dat do herní databáze === 
 +Pro vkládání dat do herní databáze používáme formát csts. 
 + 
 +== Převod rozšířené a-roviny do rozšířeného csts == 
 +  * ''convert_atrees_to_csts.ntred'' - skript pro převod rozšířené a-roviny obsahující koreferenci (a případně pojmenované entity) do rozšířeného csts 
 + 
 +==== Převod dat z prostého textu do formátu playlang: ==== 
 + 
 +=== Převod pro PlayCoref === 
 +Využíváme analýzu v modulárním systému TectoMT. 
 + 
 +Postup při zpracování české verze Studie v Šarlatové byl tento: 
 +  - Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná. 
 +  - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT; použil jsem i bloky pro přidání gramatické koreference. 
 +  - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: ''personal/mirovsky/coreference/sc_CzNEMWRecognition.scen''.) 
 +  - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu ''ne_atrees_to_txt.pl'' do textového souboru; z něj pak jdou později vložit do stejných dat v jiném formátu než tmt (pro mne je to schůdnější cesta než psát/upravovat přímou konverzi z tmt do pdt tak, aby uměla i pojmenované entity). 
 +  - Pak nastává převod do formátu PDT. Používám skript z TectoMT->''tools/format_convertors/tmt_to_pdt'': 
 +     * ''tmt-to-pdt.pl -a amdata_schema.xml soubor.tmt'' ... vznikne t-soubor a a-soubor s vloženými m a w rovinami; tento a-soubor dále filtruji a získávám z něj samostatné w- a m-soubory (používám vlastní skripty ''ma_to_w.pl'' a ''ma_to_m.pl'' (PlayLang->''playcoref/scripts/tmt_to_pdt''
 +     * ''tmt-to-pdt.pl soubor.tmt'' ... spustím to znovu bez přepínače, tak získám čistý a-soubor 
 +     * V takto získaných datech je ještě potřeba upravit identifikátory (vlastní skripty ''fix_id_ta.pl'' a ''fix_id_mw.pl'' + drobné ruční úpravy). 
 +     * Pozor, skript hledá elementy SCzech*, proto pro anglický text je nejdřív potřeba nahradit v tmt souboru výskyty SEnglish za SCzech! 
 + 
 +=== Převod pro Shannona a Place the Space === 
 +Je potřeba převádět jinak, neboť v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. Automatické doplnění není spolehlivé.
  
-  _change_mschema_to_playlang.sh - změní schéma m-souborů na mdata_schema_playlang.xml +**Pro češtinu** proto používám tool-chain z projektu ČAK. Bohužel mi nefunguje (nevím proč) tool-chain až na a-rovinu, a tak ho používám jen na m-rovinunavíc jen cstsAle to pro tyto účely stačí! Vstupní text musí být v ISO-LATIN-2, což znamená, že některé znaky (spodní horní uvozovky, dlouhé pomlčky a další) je potřeba napřed nahradit standardními ekvivalentyTokenizer je v tool-chainu lepší než v TectoMT, a tak není potřeba dávat tečky za nadpisy a lépe se vypořádá s tečkami uprostřed vět. Nový řádek znamená konec věty - ve vstupním textu tedy nesmí být věty přerušeny novým řádkem; nový odstavec bude tam, kde je ve vstupním textu prázdný řádek.
-  _coreference_extract_surface.ntred prochází textovou ka gramatickou oreferenci na t-rovině z projektu anotování rozšířené textové koreference vypíše seznam koreferenčních dvojic identifikátorů příslušných koreferenčních lemmat na m-rovině; koreference mezi uzlykteré nemají povrchový protějšek, se nebere úvahu +
-  * _coreference_add.ntred - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny +
-  * _coreference_lock.ntred koreferenční šipky opatří správnými hodnotami atributu lock+
  
-Aktuálně evedená data jsou v adresáři: {ROOT}/playcoref/data/files/02_bridging_playcoref/train-1+Vzniklý csts soubor evedu do UTF-8, pomocí skriptu PlayLang->''playcoref/scripts/txt_to_csts/_csts_fill_ids.pl'' dodělám id k elementům <f> a <d>; následně vyberu věty minimální délky 6 (a pro Shannona bez interpunkce) pomocí skriptu PlayLang->''playcoref/scripts/_csts_filter_sentences.pl''. (Id-čka předtím ještě zkracuju (aby byla jen pXsYwZ) a také nahrazuju elementy <MD[lt] src="m"> pouhými <[lt]>.)
  
 ==== Zobrazení v Tredu: ==== ==== Zobrazení v Tredu: ====
 Pro Tred existuje rozšíření //Play the Language (playlang)//, nainstalovat lze přes //Session->Manage Extensions//. Pro Tred existuje rozšíření //Play the Language (playlang)//, nainstalovat lze přes //Session->Manage Extensions//.
-(zdroj: {ROOT}/playcoref/tred_extension/playlang.mac+(zdroj: ''{ROOT}/playcoref/tred_extension''
-Umožňuje otevřít rozšířené m-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových "stromů" a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně.+Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových "stromů" a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně.
 Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na "všechny soubory", aby byly soubory s touto maskou vidět.  Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na "všechny soubory", aby byly soubory s touto maskou vidět. 
  

[ Back to the navigation ] [ Back to the content ]