[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:hladka:playlang [2011/01/04 09:19]
hladka
user:hladka:playlang [2011/03/02 09:54] (current)
hladka
Line 1: Line 1:
-====== HOT ISSUES ====== 
-   * [[Play the Language Competition]], december 2010 
-   * **[[http://www.acl-ijcnlp-2009.org/main/acceptedshortpapers.html|SHORT PAPERS ACCEPTED do hlavni sekce ACL 2009 a na wkshp LAW III]]**  
-  
  
  
 +====== Plan 2011 ======
  
  
  
 +====  Rekapitulace 2010 ====
 +   * na portalu prezentovany tri hry: Shannon Game (pro dva hrace), Place the Space (pro jednoho hrace), PlayCoref (pro jednoho a pro dva hrace)
 +   * vsechny tri hratelne v anglictine s vetami a s odstavci z Sherlocka Holmese
 +   * pro kazdou hru existuje demo cesky i anglicky a //how to play// pruvodce anglicky, pro Shannona i cesky
 +   * prvni predstaveni portalu sirsi odborne verejnosti [[Play the Language Competition]], december 2010
  
-====== Games with a purpose (GWAP) ======+ 
 + 
 +==== Tym ==== 
 +  * Barbora Hladka (koordinace) 
 +  * Jiri Mirovsky (data) 
 +  * Jan Kohout (implementace her) 
 +  * Vladimir Rovensky (sprava LGame) 
 + 
 +====  Schuzky  2011 ==== 
 +   * 31. ledna, 11:30, chodba k S1 
 + 
 + 
 +==== Portal LGame ==== 
 +  * **Ukoly pro Honzu**  
 +  -=) ''http://lgame.ms.mff.cuni.cz/lgame'' Presun LGame na novy server. Realizace s Milanem Fucikem. (//Do konce ledna//) 
 +    * JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou. 
 +  - Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, napr. thajstina --> anglictina). Zaroven to znamena, zase az na vyjimky, ze s texty prislusneho jazyka chce hrac hrat. Proto doplnit vlajecky k demum. (//Do 4. unora)//) 
 +    * JK: Pridavani novych jazykovych verzi her je uz ted docela dobre navrzene, co se Flashe tyce, tak to nepotrebuje menit program, staci, kdyz se prida dalsi xml s prekladem jednotlivych popisku GUI. V PHP by to take nemelo vyzadovat vetsi zasahy (co se API jednotlivych her tyce). 
 +  - :-D Na vhodnych forech hledat designera. (Vyvesit inzerat //do konce ledna//) 
 +  - Zvetsit velikost hracich oken ve spolupraci s Vladimirem. (//Do 25. ledna//) 
 +  - Programatorska dokumentace. (//Do konce unora//) 
 +  - :-D Export dat ze souteze PlayCoref --> preslat Jirkovi. (//Do konce ledna//) 
 +  - Uzivatelske zprijemneni. System by si mel pamatovat, s jaky nastavenim portalu hrac skoncil. Pri naslednem prihlaseni se objevi prave toto nastaveni. (tj. jakou hru, jaky jazyk ma uzivatel rad:-)) 
 +  - Data. Pokud nemame "spolehliva" data, brat vystupy z predchozich partii. Prvni hrac je na tom nejhur, pro nej se pouzije automaticka procedura - zohlednit pri pocitani skore. Spolehlivost anotace.  Vyzkouset u PlayCoref. 
 +  - U kazde verze pro dva hrace, dat v okne, kdy ceka hrac ceka na protihrace, moznost, aby mohl okamzite zacit hrat single verzi. 
 +  - Shannon Game 
 +    * Pro jednoho hrace. 
 +    * Ze stareho svn repozitare vytahnout zdrojak Shannona. 
 +  - Place the Space 
 +    * Implementovat verzi pro dva hrace. 
 +    * Podrobnosti na strance [[Place the space]].  
 + 
 +  * **Ukoly pro Jirku**  
 +   - :-D Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby "free", ale jazykově spíš nepoužitelná), druhá novější na serveru http://ld.johanesville.net/doyle-06-studie-v-sarlatove?page=1, ale nic tam nepíšou o roku překladu a o autorských právech; o autorském právu ale píšu níže v samostatné sekci) 
 +   - Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna) 
 +   - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//) 
 +   - :-D "podstrcit" ceskeho Doyla anotatorum (//Na zacatku brezna//) 
 +   - :-D vypsat projekty (//Do konce unora//) --> viz [[http://ufal.mff.cuni.cz/~mirovsky/vyuka/Nabidka_rocnikovych_projektu.html|http://ufal.mff.cuni.cz/~mirovsky/vyuka/Nabidka_rocnikovych_projektu.html]] 
 +  * **Ukoly pro Baru** 
 +   - :-D sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//) 
 +   - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//) 
 +   - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn ''\playlang_UFAL\doc\papers\2011_PBML_96'' 
 +   - :-D sepsat pozadavky na funkcnost LGame a dle nich formulovat pozadavky na vizualizaci - :-D oslovit Michala Sotkovskeho (//Do 15. unora//) -- Mi**chal nema cas:-(** 
 +      - Konzistence - obsah prostredi pro jednotlive hry shodne. Designem jednotlive hry odlisit. 
 +      - Pro kazdou hru musi existovat 
 +         - Verze pro jednoho a dva hrace (system). 
 +         - How to play (text). 
 +         - Demo (animace). 
 +         - Hrej! ("tlacitko"). 
 +         - Poradi hracu (seznam). 
 +         - V pripade hrace pro dva, neni-li druhy hrac k dispozici, dat moznost zahrat si single verzi (system). 
 +         - Jazykove mutace - v jakych jazycich je hru mozne hrat. Default: cestina a anglictina. Designeme rozlisit jednotlive jazykove mutace tak, aby uzivatel pohledem na screen poznal, ze je v ceskem prostredi. 
 +      - 3, Design prizpusobit sirokouhlym monitorum. Minimalizovat usili uzivatele na scrolovani. Nejlepe, videt vse najednou. 
 +   - :-D na hlavni stranku dat informaci o textech, se kterymi se hraje (//Do 15. unora//) 
 +   - :-D vypsat rocnikove projekty (//Do konce unora//) --> viz [[http://ufal.mff.cuni.cz/~hladka/dp.html|http://ufal.mff.cuni.cz/~hladka/dp.html]] 
 +  * **Ukoly pro Vladimira** 
 +   - zmenit proporce na strankach LGame tak, aby uzivatel nemusel scrollovat, aby videl napriklad odkayz pod hlavnim oknem (//Do konce ledna//) 
 +— 
 +  * Pro kazdou hru mit automatickou proceduru, ktera se nasadi jako (virtualni) protihrac. 
 +  * Nove hry 
 +    * Pojmenovane entity - viz [[PlayNE]]. 
 +    * Koherence vety/odstavce. Na vstupu prehazena slova vety, hrac je usporada dle jeho citu "spravne". Na urovni odstavcu by se zamichalo s poradim vet. 
 +    * ... 
 +   * **Vypsat rocnikove projekty, bakalarky, diplomky!** VOlnost v technologiich, ale pozor na PLUGINS!!! 
 + 
 +==== Autorské právo ==== 
 +Originální anglické verze děl sira Arthura Conana Doyla je možno používat volně. 
 +U modernějších českých překladů se musíme řídit zákonem o autorském právu. 
 +Našel jsem Zákon č. 398/2006 Sb. - úplné znění zákona č. 121 /2000 Sb.; výňatek z tohoto zákona, který se nás týká: 
 + 
 +§31 - Citace 
 +(1) Do práva autorského nezasahuje ten, kdo 
 +a) užije v odůvodněné míře výňatky ze zveřejněných děl jiných autorů ve svém díle, 
 +b) **užije výňatky z díla nebo drobná celá díla pro účely** kritiky nebo recenze vztahující se k takovému dílu, **vědecké či odborné tvorby a takové užití bude v souladu s poctivými zvyklostmi a v rozsahu vyžadovaném konkrétním účelem,** 
 +c) **užije dílo** při vyučování pro ilustrační účel nebo **při vědeckém výzkumu, jejichž účelem není dosažení přímého nebo nepřímého hospodářského nebo obchodního prospěchu, a nepřesáhne rozsah odpovídající sledovanému účelu;** 
 +**vždy je však nutno uvést, je-li to možné, jméno autora,** nejde-li o dílo anonymní, nebo jméno osoby, pod jejímž jménem se dílo uvádí na veřejnost, **a dále název díla a pramen.** 
 +(2) Do práva autorského nezasahuje ani ten, kdo výňatky z díla nebo drobná celá díla citovaná podle odstavce 1 písm. a) nebo b) dále užije; ustanovení odstavce 1 části věty za středníkem platí obdobně. 
 + 
 +**Závěr JM:** Pro naše účely můžeme i novější český překlad použít; měli bychom ale pod nějaký odkaz dát jméno autora překladu a odkaz, odkud jsme to stáhli. 
 + 
 +==== Prezentace, demonstrace, publikace ==== 
 +  * GACR 2012 (po trech neuspesnych pokusech frustrace, ale ... ) 
 +  * PBML 96, rozsah: 20 stranek, deadline: May 30, 2011. 
 +  * [[http://www.ijcnlp2011.org/|IJCNLP]], Chiang Mai, Thailand, Nov 8-13, System Demo, deadline: May 20, 2011. 
 +  * ... 
 + 
 +==== Finance ==== 
 +  - OON 
 +    - Jan Kohout, student, 24 tis. 
 +    - Vladimir Rovensky, student, 5 tis. 
 +  - Sluzby 
 +    - Design her, 20 tis. 
 +  - Naklady na prezentaci, 20 tis. 
 +  - LGame hosting, 1 800 Kc (viz nize) 
 + 
 +---- 
 + 
 +Z''adame Vas proto o uhrazeni platby s temito parametry: 
 + 
 +Ucet:              1061626001/5500 (Raiffeisenbank) 
 +Castka:            1800,00 Kc 
 +Variabilni symbol: 33922011 
 +Konstantni symbol: ponechte prazdny nebo 0558 
 + 
 +Podrobny rozpis sluzeb: 
 + 
 +Cena (s DPH)   Popis sluzby 
 + 
 + 1200,00 Kc  Hosting domeny lgame.cz 12 mesicu v hostingovem programu Cesky hosting 
 +  300,00 Kc  Udrzovaci poplatek domeny lgame.cz na 12 mesicu 
 +  300,00 Kc  Udrzovaci poplatek domeny lgame.eu na 12 mesicu 
 + 
 +Celkem k uhrade (vcetne DPH): 1800,00 Kc'' 
 + 
 +---- 
 + 
 + 
 +====== Motivation ====== 
 + 
 +===== Games with a purpose (GWAP) =====
    *[[http://www.gwap.com|images, tunes]], "nějaká" data z ESP Game a z Peekaboom jsou ke [[http://hunch.net/?cat=17|stažení]] (zalistuj trochu níž)    *[[http://www.gwap.com|images, tunes]], "nějaká" data z ESP Game a z Peekaboom jsou ke [[http://hunch.net/?cat=17|stažení]] (zalistuj trochu níž)
    *[[http://www.ontogame.org|ontologies]] (semantic web)     *[[http://www.ontogame.org|ontologies]] (semantic web) 
Line 37: Line 158:
  
  
-====== Related initiatives ======+===== Related initiatives =====
    *[[http://www.openmind.org/|Open Mind]]    *[[http://www.openmind.org/|Open Mind]]
    *[[https://www.mturk.com/mturk/welcome|Amazon Mechanical Turk]] is an online labor market where workers are paid small amount of money to complete small tasks.    *[[https://www.mturk.com/mturk/welcome|Amazon Mechanical Turk]] is an online labor market where workers are paid small amount of money to complete small tasks.
Line 55: Line 176:
  
  
-====== Papers/Videos to read/watch ======+===== Papers/Videos to read/watch =====
    * (Snow et al., 2008) [[http://ufal.mff.cuni.cz/~hladka/gwap/amt_emnlp08_accepted.pdf|Cheap and Fast - But is it Good? ... ]], Proceedings of the Conference on Empirical Methods in Natural Language Processing, Waikiki, Honolulu, Hawaii, 2008, pp. TBA. ''affect recognition, word similarity, recognizing textual entailment, event temporal ordering, word sense disambiguation''; see discussion at [[http://blog.doloreslabs.com/2008/09/amt-fast-cheap-good-machine-learning/|Dolores' blog]]    * (Snow et al., 2008) [[http://ufal.mff.cuni.cz/~hladka/gwap/amt_emnlp08_accepted.pdf|Cheap and Fast - But is it Good? ... ]], Proceedings of the Conference on Empirical Methods in Natural Language Processing, Waikiki, Honolulu, Hawaii, 2008, pp. TBA. ''affect recognition, word similarity, recognizing textual entailment, event temporal ordering, word sense disambiguation''; see discussion at [[http://blog.doloreslabs.com/2008/09/amt-fast-cheap-good-machine-learning/|Dolores' blog]]
       * Bara's summary:       * Bara's summary:
Line 66: Line 187:
    *[[http://research.google.com/roundtable/HLT.html|Google Technology RoundTable, Mike Cohen, Franz Josef Och]]    *[[http://research.google.com/roundtable/HLT.html|Google Technology RoundTable, Mike Cohen, Franz Josef Och]]
  
-====== Ideas ======+====== Our ideas ======
 Date: Fri, 10 Oct 2008 09:42:43 +0200, updated on Tue, 7 Apr 2009 Date: Fri, 10 Oct 2008 09:42:43 +0200, updated on Tue, 7 Apr 2009
 From: Jiří Mírovský  From: Jiří Mírovský 
Line 83: Line 204:
  
  
-====== The Project Directory ======+====== The PlayLang Project ====== 
 + 
 +===== Directory structure =====
  
 Projekt využívá SVN repozitář, návod k použití zde: Projekt využívá SVN repozitář, návod k použití zde:
Line 92: Line 215:
 /net/projects/playlang_shared /net/projects/playlang_shared
  
-====== Data Format (and Tred Support) for the Project Play the Language ====== +===== Data Format (and Tred Support) for the Project Play the Language ===== 
-Date: Wed, 24 Dec 2008, updated Tue, 6 Jan 2009, again Fri, 27 Mar 2009+Date: Wed, 24 Dec 2008 
 +Updates: 6 Jan 2009, 27 Mar 2009, 21 Jan 2011
 From: Jiří Mírovský  From: Jiří Mírovský 
  
-==== Návrh formátu pro playlang (minimálně playcoref): rozšíření m-roviny z PDT 2.0 ====+=== Formát souborů pro playlang (minimálně playcoref): rozšíření m-roviny z PDT 2.0 ===
 Důvody: Důvody:
   * automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo   * automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo
Line 102: Line 226:
   * automatické procedury pro předzpracování textů (např. detekce kandidátů pro koreferenci) budou lemmatizaci a morfologii nejspíš potřebovat   * automatické procedury pro předzpracování textů (např. detekce kandidátů pro koreferenci) budou lemmatizaci a morfologii nejspíš potřebovat
   * morfologická rovina jde dobře zobrazit v Tredu   * morfologická rovina jde dobře zobrazit v Tredu
-==== Schéma rozšířené m-roviny: ==== 
-PML schéma je zde: {ROOT}/playcoref/tred_extension/ 
-  * obsahuje rozšíření o seznam struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); přidány už byly atributy: 
-    * type - určuje, o jakou koreferenci jde: textual nebo grammatical 
-    * lock - pro účely hry PlayCoref zamyká či odemyká jednotlivé šipky (hodnoty: locked/unlocked) 
  
-==== Převod dat PDT 2.0 do formátu playlang: ==== +Alternativně používáme také rozšíření a-roviny z PDT 2.0. 
-V adresáři {ROOT}/playcoref/scripts jsou skripty pro převod textové a gramatické koreference z tektogramatické roviny do rozšířené m-roviny:+ 
 +Data pro projekt playlang jsou v adresáři: ''{ROOT}/playcoref/data/shared'' 
 + 
 +==== Schémata rozšířené m-roviny a rozšířené a-roviny: ==== 
 +PML schémata jsou zde: ''{ROOT}/playcoref/tred_extension/package/playlang/resources'' 
 +  * obě schémata (a- i m-) obsahují rozšíření o atribut ''coref'' - seznam struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); obsahuje atributy: 
 +    * ''target-node.rf'' - id antecedenta 
 +    * ''type'' - určuje, o jakou koreferenci jde: textual, grammatical nebo chained (chained znamená: na povrchové rovině je to jeden link, na tekto rovině je to více linků vedoucích přes uzel, který nemá povrchové vyjádření) 
 +    * ''lock'' - pro účely hry PlayCoref zamyká či odemyká jednotlivé šipky (hodnoty: locked/unlocked) 
 +  * dalším rozšířením obou schémat je možnost vkládat informaci o pojmenovaných entitách, a to ve struktuře ''named_entity'' s těmito atributy: 
 +    * ''last_member.rf'' - id uzlu, kde pojmenovaná entita končí (začíná na aktuálním uzlu) 
 +    * ''head_member.rf'' - id uzlu, který je hlavou pojmenované entity 
 + 
 +==== Převod dat PDT 2.0 (rozšíření bridging) do formátu playlang: ==== 
 +V adresáři ''{ROOT}/playcoref/scripts'' jsou skripty pro převod textové a gramatické koreference z rozšířené tektogramatické roviny projektu bridging do rozšířené m-roviny nebo do rozšířené a-roviny: 
 + 
 +== Nejprve se změní schéma souboru (m- nebo a-): == 
 +  * ''_change_mschema_to_playlang.sh'' - změní schéma m-souborů na mdata_schema_playlang.xml 
 +  * ''_change_aschema_to_playlang.sh'' - změní schéma a-souborů na adata_schema_playlang.xml (m-soubor je pak klasický z PDT 2.0) 
 + 
 +== Pak se z rozšířené t-roviny získá seznam koreferenčních dvojic promítnutých na uzly a-roviny nebo m-roviny: == 
 +  * ''coreference_extract_surface_joint.ntred'' - prochází textovou a gramatickou koreferenci na t-rovině z projektu anotování rozšířené textové koreference a vypíše seznam koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-rovině; pokud antecedent nemá povrchové vyjádření, hledá se nejbližší antecedent v řetězci, který povrchové vyjádření má 
 +  * ''coreference_extract_surface_a_joint.ntred'' - totéž, ale pro a-rovinu, tj. vypisují se identifikátory a-uzlů odpovídajících koreferenčním dvojicím z t-roviny 
 + 
 +== Nakonec se koreferenční dvojice z daného seznamu vloží do rozšířeného m-souboru nebo a-souboru: == 
 +  * ''coreference_add_m.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny 
 +  * ''coreference_add_a.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na a-rovině a tyto koreference vkládá do rozšířené a-roviny 
 + 
 +== Některé koreferenční vztahy je možno zamknout: == 
 +  * ''coreference_lock.ntred'' - koreferenční šipky opatří správnými hodnotami atributu lock 
 + 
 +=== Pojmenované entity === 
 +== Nejprve je potřeba získat seznam pojmenovaných entit: == 
 +  * To se provádí v TectoMT (kde se ostatně pojmenované entity v souborech automaticky označí). Skript pro vytvoření seznamu pojmenovaných entit se jmenuje ''ne_atrees_to_txt.pl'' a nachází se v TectoMT repozitáři v adresáři ''personal/mirovsky/coreference''
 + 
 +== Pojmenované entity z vytvořeného seznamu se vloží do rozšířeného a-souboru (zatím nebyl potřeba skript i pro m-soubor): == 
 +  * ''named_entities_add_a.ntred'' - ze seznamu bere id uzlů a informaci o pojmenovaných entitách vkládá do rozšířené a- nebo m-roviny 
 + 
 +=== Vkládání dat do herní databáze === 
 +Pro vkládání dat do herní databáze používáme formát csts. 
 + 
 +== Převod rozšířené a-roviny do rozšířeného csts == 
 +  * ''convert_atrees_to_csts.ntred'' - skript pro převod rozšířené a-roviny obsahující koreferenci (a případně pojmenované entity) do rozšířeného csts 
 + 
 +==== Převod dat z prostého textu do formátu playlang: ==== 
 + 
 +=== Převod pro PlayCoref === 
 +Využíváme analýzu v modulárním systému TectoMT. 
 + 
 +Postup při zpracování české verze Studie v Šarlatové byl tento: 
 +  - Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná. 
 +  - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT; použil jsem i bloky pro přidání gramatické koreference. 
 +  - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: ''personal/mirovsky/coreference/sc_CzNEMWRecognition.scen''.) 
 +  - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu ''ne_atrees_to_txt.pl'' do textového souboru; z něj pak jdou později vložit do stejných dat v jiném formátu než tmt (pro mne je to schůdnější cesta než psát/upravovat přímou konverzi z tmt do pdt tak, aby uměla i pojmenované entity). 
 +  - Pak nastává převod do formátu PDT. Používám skript z TectoMT->''tools/format_convertors/tmt_to_pdt'': 
 +     * ''tmt-to-pdt.pl -a amdata_schema.xml soubor.tmt'' ... vznikne t-soubor a a-soubor s vloženými m a w rovinami; tento a-soubor dále filtruji a získávám z něj samostatné w- a m-soubory (používám vlastní skripty ''ma_to_w.pl'' a ''ma_to_m.pl'' (PlayLang->''playcoref/scripts/tmt_to_pdt''
 +     * ''tmt-to-pdt.pl soubor.tmt'' ... spustím to znovu bez přepínače, tak získám čistý a-soubor 
 +     * V takto získaných datech je ještě potřeba upravit identifikátory (vlastní skripty ''fix_id_ta.pl'' a ''fix_id_mw.pl'' + drobné ruční úpravy). 
 +     * Pozor, skript hledá elementy SCzech*, proto pro anglický text je nejdřív potřeba nahradit v tmt souboru výskyty SEnglish za SCzech! 
 + 
 +=== Převod pro Shannona a Place the Space === 
 +Je potřeba převádět jinak, neboť v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. Automatické doplnění není spolehlivé.
  
-  _change_mschema_to_playlang.sh - změní schéma m-souborů na mdata_schema_playlang.xml +**Pro češtinu** proto používám tool-chain z projektu ČAK. Bohužel mi nefunguje (nevím proč) tool-chain až na a-rovinu, a tak ho používám jen na m-rovinunavíc jen cstsAle to pro tyto účely stačí! Vstupní text musí být v ISO-LATIN-2, což znamená, že některé znaky (spodní horní uvozovky, dlouhé pomlčky a další) je potřeba napřed nahradit standardními ekvivalentyTokenizer je v tool-chainu lepší než v TectoMT, a tak není potřeba dávat tečky za nadpisy a lépe se vypořádá s tečkami uprostřed vět. Nový řádek znamená konec věty - ve vstupním textu tedy nesmí být věty přerušeny novým řádkem; nový odstavec bude tam, kde je ve vstupním textu prázdný řádek.
-  _coreference_extract_surface.ntred prochází textovou a gramatickou oreferenci na t-rovině z projektu anotování rozšířené textové koreference vypíše seznam koreferenčních dvojic identifikátorů příslušných koreferenčních lemmat na m-rovině; koreference mezi uzlykteré nemají povrchový protějšek, se nebere úvahu +
-  * _coreference_add.ntred - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny +
-  * _coreference_lock.ntred koreferenční šipky opatří správnými hodnotami atributu lock+
  
-Aktuálně evedená data jsou v adresáři: {ROOT}/playcoref/data/files/02_bridging_playcoref/train-1+Vzniklý csts soubor evedu do UTF-8, pomocí skriptu PlayLang->''playcoref/scripts/txt_to_csts/_csts_fill_ids.pl'' dodělám id k elementům <f> a <d>; následně vyberu věty minimální délky 6 (a pro Shannona bez interpunkce) pomocí skriptu PlayLang->''playcoref/scripts/_csts_filter_sentences.pl''. (Id-čka předtím ještě zkracuju (aby byla jen pXsYwZ) a také nahrazuju elementy <MD[lt] src="m"> pouhými <[lt]>.)
  
 ==== Zobrazení v Tredu: ==== ==== Zobrazení v Tredu: ====
 Pro Tred existuje rozšíření //Play the Language (playlang)//, nainstalovat lze přes //Session->Manage Extensions//. Pro Tred existuje rozšíření //Play the Language (playlang)//, nainstalovat lze přes //Session->Manage Extensions//.
-(zdroj: {ROOT}/playcoref/tred_extension/playlang.mac+(zdroj: ''{ROOT}/playcoref/tred_extension''
-Umožňuje otevřít rozšířené m-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových "stromů" a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně.+Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových "stromů" a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně.
 Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na "všechny soubory", aby byly soubory s touto maskou vidět.  Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na "všechny soubory", aby byly soubory s touto maskou vidět. 
  

[ Back to the navigation ] [ Back to the content ]