[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:hladka:playlang [2011/01/21 15:44]
mirovsky
user:hladka:playlang [2011/01/21 16:14]
mirovsky
Line 180: Line 180:
  
 Alternativně používáme také rozšíření a-roviny z PDT 2.0. Alternativně používáme také rozšíření a-roviny z PDT 2.0.
 +
 +Data pro projekt playlang jsou v adresáři: ''{ROOT}/playcoref/data/shared''
  
 ==== Schémata rozšířené m-roviny a rozšířené a-roviny: ==== ==== Schémata rozšířené m-roviny a rozšířené a-roviny: ====
 PML schémata jsou zde: ''{ROOT}/playcoref/tred_extension/package/playlang/resources'' PML schémata jsou zde: ''{ROOT}/playcoref/tred_extension/package/playlang/resources''
-  * obě schémata (a- i m-) obsahují rozšíření o seznam ''coref'' struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); obsahuje atributy:+  * obě schémata (a- i m-) obsahují rozšíření o atribut ''coref'' - seznam struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); obsahuje atributy:
     * ''target-node.rf'' - id antecedenta     * ''target-node.rf'' - id antecedenta
     * ''type'' - určuje, o jakou koreferenci jde: textual, grammatical nebo chained (chained znamená: na povrchové rovině je to jeden link, na tekto rovině je to více linků vedoucích přes uzel, který nemá povrchové vyjádření)     * ''type'' - určuje, o jakou koreferenci jde: textual, grammatical nebo chained (chained znamená: na povrchové rovině je to jeden link, na tekto rovině je to více linků vedoucích přes uzel, který nemá povrchové vyjádření)
Line 191: Line 193:
     * ''head_member.rf'' - id uzlu, který je hlavou pojmenované entity     * ''head_member.rf'' - id uzlu, který je hlavou pojmenované entity
  
-=== Převod dat PDT 2.0 do formátu playlang: === +==== Převod dat PDT 2.0 (rozšíření bridging) do formátu playlang: ==== 
-V adresáři {ROOT}/playcoref/scripts jsou skripty pro převod textové a gramatické koreference z tektogramatické roviny (a z rozšířené tektogramatické roviny projektu bridgingdo rozšířené m-roviny nebo do rozšířené a-roviny: +V adresáři ''{ROOT}/playcoref/scripts'' jsou skripty pro převod textové a gramatické koreference z rozšířené tektogramatické roviny projektu bridging do rozšířené m-roviny nebo do rozšířené a-roviny:
- +
-==== Nejprve se změní schéma souboru (m- nebo a-) ====+
  
 +== Nejprve se změní schéma souboru (m- nebo a-): ==
   * ''_change_mschema_to_playlang.sh'' - změní schéma m-souborů na mdata_schema_playlang.xml   * ''_change_mschema_to_playlang.sh'' - změní schéma m-souborů na mdata_schema_playlang.xml
   * ''_change_aschema_to_playlang.sh'' - změní schéma a-souborů na adata_schema_playlang.xml (m-soubor je pak klasický z PDT 2.0)   * ''_change_aschema_to_playlang.sh'' - změní schéma a-souborů na adata_schema_playlang.xml (m-soubor je pak klasický z PDT 2.0)
 +
 +== Pak se z rozšířené t-roviny získá seznam koreferenčních dvojic promítnutých na uzly a-roviny nebo m-roviny: ==
   * ''coreference_extract_surface_joint.ntred'' - prochází textovou a gramatickou koreferenci na t-rovině z projektu anotování rozšířené textové koreference a vypíše seznam koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-rovině; pokud antecedent nemá povrchové vyjádření, hledá se nejbližší antecedent v řetězci, který povrchové vyjádření má   * ''coreference_extract_surface_joint.ntred'' - prochází textovou a gramatickou koreferenci na t-rovině z projektu anotování rozšířené textové koreference a vypíše seznam koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-rovině; pokud antecedent nemá povrchové vyjádření, hledá se nejbližší antecedent v řetězci, který povrchové vyjádření má
   * ''coreference_extract_surface_a_joint.ntred'' - totéž, ale pro a-rovinu, tj. vypisují se identifikátory a-uzlů odpovídajících koreferenčním dvojicím z t-roviny   * ''coreference_extract_surface_a_joint.ntred'' - totéž, ale pro a-rovinu, tj. vypisují se identifikátory a-uzlů odpovídajících koreferenčním dvojicím z t-roviny
 +
 +== Nakonec se koreferenční dvojice z daného seznamu vloží do rozšířeného m-souboru nebo a-souboru: ==
   * ''coreference_add_m.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny   * ''coreference_add_m.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny
   * ''coreference_add_a.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na a-rovině a tyto koreference vkládá do rozšířené a-roviny   * ''coreference_add_a.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na a-rovině a tyto koreference vkládá do rozšířené a-roviny
 +
 +== Některé koreferenční vztahy je možno zamknout: ==
   * ''coreference_lock.ntred'' - koreferenční šipky opatří správnými hodnotami atributu lock   * ''coreference_lock.ntred'' - koreferenční šipky opatří správnými hodnotami atributu lock
  
-Aktuálně převedená data jsou v adresáři''{ROOT}/playcoref/data/shared''+=== Pojmenované entity === 
 +== Nejprve je potřeba získat seznam pojmenovaných entit: == 
 +  * To se provádí v TectoMT (kde se ostatně pojmenované entity v souborech automaticky označí). Skript pro vytvoření seznamu pojmenovaných entit se jmenuje ''ne_atrees_to_txt.pl'' a nachází se v TectoMT repozitáři v adresáři ''personal/mirovsky/coreference''
 + 
 +== Pojmenované entity z vytvořeného seznamu se vloží do rozšířeného a-souboru (zatím nebyl potřeba skript i pro m-soubor): == 
 +  * ''named_entities_add_a.ntred'' - ze seznamu bere id uzlů a informaci o pojmenovaných entitách vkládá do rozšířené a- nebo m-roviny 
 + 
 +=== Vkládání dat do herní databáze === 
 +Pro vkládání dat do herní databáze používáme formát csts. 
 + 
 +== Převod rozšířené a-roviny do rozšířeného csts == 
 +  * ''convert_atrees_to_csts.ntred'' - skript pro převod rozšířené a-roviny obsahující koreferenci (a případně pojmenované entity) do rozšířeného csts
  
 ==== Zobrazení v Tredu: ==== ==== Zobrazení v Tredu: ====
 Pro Tred existuje rozšíření //Play the Language (playlang)//, nainstalovat lze přes //Session->Manage Extensions//. Pro Tred existuje rozšíření //Play the Language (playlang)//, nainstalovat lze přes //Session->Manage Extensions//.
-(zdroj: {ROOT}/playcoref/tred_extension/playlang.mac)+(zdroj: ''{ROOT}/playcoref/tred_extension'')
 Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových "stromů" a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně. Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových "stromů" a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně.
 Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na "všechny soubory", aby byly soubory s touto maskou vidět.  Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na "všechny soubory", aby byly soubory s touto maskou vidět. 

[ Back to the navigation ] [ Back to the content ]