Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:hladka:playlang [2011/01/21 12:43] hladka |
user:hladka:playlang [2011/01/21 15:41] mirovsky |
| |
===== Data Format (and Tred Support) for the Project Play the Language ===== | ===== Data Format (and Tred Support) for the Project Play the Language ===== |
Date: Wed, 24 Dec 2008, updated Tue, 6 Jan 2009, again Fri, 27 Mar 2009 | Date: Wed, 24 Dec 2008 |
| Updates: 6 Jan 2009, 27 Mar 2009, 21 Jan 2011 |
From: Jiří Mírovský | From: Jiří Mírovský |
| |
=== Návrh formátu pro playlang (minimálně playcoref): rozšíření m-roviny z PDT 2.0 === | === Formát souborů pro playlang (minimálně playcoref): rozšíření m-roviny z PDT 2.0 === |
Důvody: | Důvody: |
* automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo | * automatická lemmatizace a morfologická disambiguace textů je uspokojivě zvládnutý problém, pro nás téměř zadarmo |
* morfologická rovina jde dobře zobrazit v Tredu | * morfologická rovina jde dobře zobrazit v Tredu |
| |
==== Schéma rozšířené m-roviny: ==== | Alternativně používáme také rozšíření a-roviny z PDT 2.0. |
PML schéma je zde: {ROOT}/playcoref/tred_extension/ | |
* obsahuje rozšíření o seznam struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); přidány už byly atributy: | ==== Schémata rozšířené m-roviny a rozšířené a-roviny: ==== |
* type - určuje, o jakou koreferenci jde: textual nebo grammatical | PML schémata jsou zde: ''{ROOT}/playcoref/tred_extension/package/playlang/resources'' |
* lock - pro účely hry PlayCoref zamyká či odemyká jednotlivé šipky (hodnoty: locked/unlocked) | * obě schémata (a- i m-) obsahují rozšíření o seznam ''coref'' struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); obsahuje atributy: |
| * ''target-node.rf'' - id antecedenta |
| * ''type'' - určuje, o jakou koreferenci jde: textual, grammatical nebo chained (chained znamená: na povrchové rovině je to jeden link, na tekto rovině je to více linků vedoucích přes uzel, který nemá povrchové vyjádření) |
| * ''lock'' - pro účely hry PlayCoref zamyká či odemyká jednotlivé šipky (hodnoty: locked/unlocked) |
| * dalším rozšířením obou schémat je možnost vkládat informaci o pojmenovaných entitách, a to ve struktuře ''named_entity'' s těmito atributy: |
| * ''last_member.rf'' - id uzlu, kde pojmenovaná entita končí (začíná na aktuálním uzlu) |
| * ''head_member.rf'' - id uzlu, který je hlavou pojmenované entity |
| |
=== Převod dat PDT 2.0 do formátu playlang: === | === Převod dat PDT 2.0 do formátu playlang: === |
V adresáři {ROOT}/playcoref/scripts jsou skripty pro převod textové a gramatické koreference z tektogramatické roviny do rozšířené m-roviny: | V adresáři {ROOT}/playcoref/scripts jsou skripty pro převod textové a gramatické koreference z tektogramatické roviny (a z rozšířené tektogramatické roviny projektu bridging) do rozšířené m-roviny nebo do rozšířené a-roviny: |
| |
* _change_mschema_to_playlang.sh - změní schéma m-souborů na mdata_schema_playlang.xml | * ''_change_mschema_to_playlang.sh'' - změní schéma m-souborů na mdata_schema_playlang.xml |
* _coreference_extract_surface.ntred - prochází textovou a gramatickou oreferenci na t-rovině z projektu anotování rozšířené textové koreference a vypíše seznam koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-rovině; koreference mezi uzly, které nemají povrchový protějšek, se nebere v úvahu | * ''_change_aschema_to_playlang.sh'' - změní schéma a-souborů na adata_schema_playlang.xml (m-soubor je pak klasický z PDT 2.0) |
* _coreference_add.ntred - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny | * ''coreference_extract_surface_joint.ntred'' - prochází textovou a gramatickou koreferenci na t-rovině z projektu anotování rozšířené textové koreference a vypíše seznam koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-rovině; pokud antecedent nemá povrchové vyjádření, hledá se nejbližší antecedent v řetězci, který povrchové vyjádření má |
* _coreference_lock.ntred - koreferenční šipky opatří správnými hodnotami atributu lock | * ''coreference_extract_surface_a_joint.ntred'' - totéž, ale pro a-rovinu, tj. vypisují se identifikátory a-uzlů odpovídajících koreferenčním dvojicím z t-roviny |
| * ''coreference_add_m.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny |
| * ''coreference_add_a.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na a-rovině a tyto koreference vkládá do rozšířené a-roviny |
| * ''coreference_lock.ntred'' - koreferenční šipky opatří správnými hodnotami atributu lock |
| |
Aktuálně převedená data jsou v adresáři: {ROOT}/playcoref/data/files/02_bridging_playcoref/train-1 | Aktuálně převedená data jsou v adresáři: ''{ROOT}/playcoref/data/shared'' |
| |
==== Zobrazení v Tredu: ==== | ==== Zobrazení v Tredu: ==== |
Pro Tred existuje rozšíření //Play the Language (playlang)//, nainstalovat lze přes //Session->Manage Extensions//. | Pro Tred existuje rozšíření //Play the Language (playlang)//, nainstalovat lze přes //Session->Manage Extensions//. |
(zdroj: {ROOT}/playcoref/tred_extension/playlang.mac) | (zdroj: {ROOT}/playcoref/tred_extension/playlang.mac) |
Umožňuje otevřít rozšířené m-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových "stromů" a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně. | Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových "stromů" a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně. |
Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na "všechny soubory", aby byly soubory s touto maskou vidět. | Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na "všechny soubory", aby byly soubory s touto maskou vidět. |
| |