[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:hladka:playlang [2011/01/21 15:35]
mirovsky
user:hladka:playlang [2011/01/26 14:28]
ufal
Line 43: Line 43:
  
   * **Ukoly pro Jirku**    * **Ukoly pro Jirku** 
-   - Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby "free", ale jazykově spíš nepoužitelná), druhá novější na serveru http://ld.johanesville.net/doyle-06-studie-v-sarlatove?page=1, ale nic tam nepíšou o roku překladu a o autorských právech)+   - Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby "free", ale jazykově spíš nepoužitelná), druhá novější na serveru http://ld.johanesville.net/doyle-06-studie-v-sarlatove?page=1, ale nic tam nepíšou o roku překladu a o autorských právech; o autorském právu ale píšu níže v samostatné sekci)
    - Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna)    - Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna)
    - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//)    - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//)
    - vypsat projekty (//Do konce unora//)    - vypsat projekty (//Do konce unora//)
   * **Ukoly pro Baru**   * **Ukoly pro Baru**
-   - sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//)+   :-) sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//)
    - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//)    - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//)
    - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn ''\playlang_UFAL\doc\papers\2011_PBML_96''    - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn ''\playlang_UFAL\doc\papers\2011_PBML_96''
Line 64: Line 64:
     * ...     * ...
    * **Vypsat rocnikove projekty, bakalarky, diplomky!** VOlnost v technologiich, ale pozor na PLUGINS!!!    * **Vypsat rocnikove projekty, bakalarky, diplomky!** VOlnost v technologiich, ale pozor na PLUGINS!!!
 +
 +==== Autorské právo ====
 +Originální anglické verze děl sira Arthura Conana Doyla je možno používat volně.
 +U modernějších českých překladů se musíme řídit zákonem o autorském právu.
 +Našel jsem Zákon č. 398/2006 Sb. - úplné znění zákona č. 121 /2000 Sb.; výňatek z tohoto zákona, který se nás týká:
 +
 +§31 - Citace
 +(1) Do práva autorského nezasahuje ten, kdo
 +a) užije v odůvodněné míře výňatky ze zveřejněných děl jiných autorů ve svém díle,
 +b) **užije výňatky z díla nebo drobná celá díla pro účely** kritiky nebo recenze vztahující se k takovému dílu, **vědecké či odborné tvorby a takové užití bude v souladu s poctivými zvyklostmi a v rozsahu vyžadovaném konkrétním účelem,**
 +c) **užije dílo** při vyučování pro ilustrační účel nebo **při vědeckém výzkumu, jejichž účelem není dosažení přímého nebo nepřímého hospodářského nebo obchodního prospěchu, a nepřesáhne rozsah odpovídající sledovanému účelu;**
 +**vždy je však nutno uvést, je-li to možné, jméno autora,** nejde-li o dílo anonymní, nebo jméno osoby, pod jejímž jménem se dílo uvádí na veřejnost, **a dále název díla a pramen.**
 +(2) Do práva autorského nezasahuje ani ten, kdo výňatky z díla nebo drobná celá díla citovaná podle odstavce 1 písm. a) nebo b) dále užije; ustanovení odstavce 1 části věty za středníkem platí obdobně.
 +
 +**Závěr JM:** Pro naše účely můžeme i novější český překlad použít; měli bychom ale pod nějaký odkaz dát jméno autora překladu a odkaz, odkud jsme to stáhli.
  
 ==== Prezentace, demonstrace, publikace ==== ==== Prezentace, demonstrace, publikace ====
Line 179: Line 194:
   * morfologická rovina jde dobře zobrazit v Tredu   * morfologická rovina jde dobře zobrazit v Tredu
  
-Rovněž používáme rozšíření a-roviny z PDT 2.0.+Alternativně používáme také rozšíření a-roviny z PDT 2.0. 
 + 
 +Data pro projekt playlang jsou v adresáři: ''{ROOT}/playcoref/data/shared''
  
 ==== Schémata rozšířené m-roviny a rozšířené a-roviny: ==== ==== Schémata rozšířené m-roviny a rozšířené a-roviny: ====
-PML schémata jsou zde: {ROOT}/playcoref/tred_extension/ +PML schémata jsou zde: ''{ROOT}/playcoref/tred_extension/package/playlang/resources'' 
-  * obě schémata (a- i m-) obsahují rozšíření o seznam struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); obsahuje atributy: +  * obě schémata (a- i m-) obsahují rozšíření o atribut ''coref''seznam struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); obsahuje atributy: 
-    * target-node.rf - id antecedenta +    * ''target-node.rf'' - id antecedenta 
-    * type - určuje, o jakou koreferenci jde: textual, grammatical nebo chained (chained znamená: na povrchové rovině je to jeden link, na tekto rovině je to více linků vedoucích přes uzel, který nemá povrchové vyjádření) +    * ''type'' - určuje, o jakou koreferenci jde: textual, grammatical nebo chained (chained znamená: na povrchové rovině je to jeden link, na tekto rovině je to více linků vedoucích přes uzel, který nemá povrchové vyjádření) 
-    * lock - pro účely hry PlayCoref zamyká či odemyká jednotlivé šipky (hodnoty: locked/unlocked) +    * ''lock'' - pro účely hry PlayCoref zamyká či odemyká jednotlivé šipky (hodnoty: locked/unlocked) 
-  * dalším rozšířením obou schémat je možnost vkládat informaci o pojmenovaných entitách, a to ve struktuře s těmito atributy: +  * dalším rozšířením obou schémat je možnost vkládat informaci o pojmenovaných entitách, a to ve struktuře ''named_entity'' s těmito atributy: 
-    * last_member.rf - kde pojmenovaná entita končí (začíná na aktuálním uzlu) +    * ''last_member.rf'' id uzlu, kde pojmenovaná entita končí (začíná na aktuálním uzlu) 
-    * head_member.rf - který uzel je hlavou pojmenované entity+    * ''head_member.rf'' id uzlu, který je hlavou pojmenované entity 
 + 
 +==== Převod dat PDT 2.0 (rozšíření bridging) do formátu playlang: ==== 
 +V adresáři ''{ROOT}/playcoref/scripts'' jsou skripty pro převod textové a gramatické koreference z rozšířené tektogramatické roviny projektu bridging do rozšířené m-roviny nebo do rozšířené a-roviny: 
 + 
 +== Nejprve se změní schéma souboru (m- nebo a-): == 
 +  * ''_change_mschema_to_playlang.sh'' - změní schéma m-souborů na mdata_schema_playlang.xml 
 +  * ''_change_aschema_to_playlang.sh'' - změní schéma a-souborů na adata_schema_playlang.xml (m-soubor je pak klasický z PDT 2.0) 
 + 
 +== Pak se z rozšířené t-roviny získá seznam koreferenčních dvojic promítnutých na uzly a-roviny nebo m-roviny: == 
 +  * ''coreference_extract_surface_joint.ntred'' - prochází textovou a gramatickou koreferenci na t-rovině z projektu anotování rozšířené textové koreference a vypíše seznam koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-rovině; pokud antecedent nemá povrchové vyjádření, hledá se nejbližší antecedent v řetězci, který povrchové vyjádření má 
 +  * ''coreference_extract_surface_a_joint.ntred'' - totéž, ale pro a-rovinu, tj. vypisují se identifikátory a-uzlů odpovídajících koreferenčním dvojicím z t-roviny 
 + 
 +== Nakonec se koreferenční dvojice z daného seznamu vloží do rozšířeného m-souboru nebo a-souboru: == 
 +  * ''coreference_add_m.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny 
 +  * ''coreference_add_a.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na a-rovině a tyto koreference vkládá do rozšířené a-roviny 
 + 
 +== Některé koreferenční vztahy je možno zamknout: == 
 +  * ''coreference_lock.ntred'' - koreferenční šipky opatří správnými hodnotami atributu lock 
 + 
 +=== Pojmenované entity === 
 +== Nejprve je potřeba získat seznam pojmenovaných entit: == 
 +  * To se provádí v TectoMT (kde se ostatně pojmenované entity v souborech automaticky označí). Skript pro vytvoření seznamu pojmenovaných entit se jmenuje ''ne_atrees_to_txt.pl'' a nachází se v TectoMT repozitáři v adresáři ''personal/mirovsky/coreference''
 + 
 +== Pojmenované entity z vytvořeného seznamu se vloží do rozšířeného a-souboru (zatím nebyl potřeba skript i pro m-soubor): == 
 +  * ''named_entities_add_a.ntred'' - ze seznamu bere id uzlů a informaci o pojmenovaných entitách vkládá do rozšířené a- nebo m-roviny 
 + 
 +=== Vkládání dat do herní databáze === 
 +Pro vkládání dat do herní databáze používáme formát csts. 
 + 
 +== Převod rozšířené a-roviny do rozšířeného csts == 
 +  * ''convert_atrees_to_csts.ntred'' - skript pro převod rozšířené a-roviny obsahující koreferenci (a případně pojmenované entity) do rozšířeného csts 
 + 
 +==== Převod dat z prostého textu do formátu playlang: ====
  
-=== Převod dat PDT 2.0 do formátu playlang: === +=== Převod pro PlayCoref === 
-V adresáři {ROOT}/playcoref/scripts jsou skripty pro převod textové a gramatické koreference z tektogramatické roviny (a z rozšířené tektogramatické roviny projektu bridging) do rozšířené m-roviny nebo do rozšířené a-roviny:+Využíváme analýzu v modulárním systému TectoMT.
  
-  * _change_mschema_to_playlang.sh změní schéma m-souborů na mdata_schema_playlang.xml +Postup při zpracování české verze Studie v Šarlatové byl tento: 
-  * _change_aschema_to_playlang.sh změní schéma a-souborů na adata_schema_playlang.xml (m-soubor je pak klasický z PDT 2.0) +  Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná
-  * coreference_extract_surface_joint.ntred prochází textovou a gramatickou koreferenci na t-rovině z projektu anotování rozšířené textové koreference vypíše seznam koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-roviněpokud antecedent nemá povrchové vyjádřeníhledá se nejbližší antecedent v řetězcikterý povrchové vyjádření má +  - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT; použil jsem i bloky pro přidání gramatické koreference
-  * coreference_extract_surface_a_joint.ntred totéž, ale pro a-rovinutjvypisují se identifikátory a-uzlů odpovídajících koreferenčním dvojicím t-roviny +  - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity kombinace cizích mých vlastních modulů TectoMTprozatím v PlayCoref neumíme zpracovat vnořené entitya tak jsem použil opravdu jen základní modulyvynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: ''personal/mirovsky/coreference/sc_CzNEMWRecognition.scen''.) 
-  coreference_add_m.ntred ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny +  - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu ''ne_atrees_to_txt.pl'' do textového souboru; z něj pak jdou později vložit do stejných dat v jiném formátu než tmt (pro mne je to schůdnější cesta než psát/upravovat přímou konverzi z tmt do pdt takaby uměla i pojmenované entity). 
-  coreference_add_a.ntred ze seznamu bere dvojice identifikátorů koreferenčních lemmat na a-rovině a tyto koreference vkládá do rozšířené a-roviny +  Pak nastává převod do formátu PDT. Používám skript TectoMT->''tools/format_convertors/tmt_to_pdt'': 
-  coreference_lock.ntred - koreferenční šipky opatří správnými hodnotami atributu lock+     ''tmt-to-pdt.pl -a amdata_schema.xml soubor.tmt'' ... vznikne t-soubor a a-soubor s vloženými a w rovinami; tento a-soubor dále filtruji a získávám z něj samostatné w- a m-soubory (používám vlastní skripty ''ma_to_w.pl'' a ''ma_to_m.pl'' (PlayLang->''playcoref/scripts/tmt_to_pdt'') 
 +     ''tmt-to-pdt.pl soubor.tmt'' ... spustím to znovu bez přepínače, tak získám čistý a-soubor 
 +     V takto získaných datech je ještě potřeba upravit identifikátory (vlastní skripty ''fix_id_ta.pl'' a ''fix_id_mw.pl'' + drobné ruční úpravy).
  
-Aktuálně evedená data jsou adresáři: {ROOT}/playcoref/data/shared+=== Převod pro Shannona a Place the Space === 
 +Je potřeba evádět jinak - TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. 
  
 ==== Zobrazení v Tredu: ==== ==== Zobrazení v Tredu: ====
 Pro Tred existuje rozšíření //Play the Language (playlang)//, nainstalovat lze přes //Session->Manage Extensions//. Pro Tred existuje rozšíření //Play the Language (playlang)//, nainstalovat lze přes //Session->Manage Extensions//.
-(zdroj: {ROOT}/playcoref/tred_extension/playlang.mac)+(zdroj: ''{ROOT}/playcoref/tred_extension'')
 Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových "stromů" a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně. Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových "stromů" a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně.
 Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na "všechny soubory", aby byly soubory s touto maskou vidět.  Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na "všechny soubory", aby byly soubory s touto maskou vidět. 

[ Back to the navigation ] [ Back to the content ]