Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:hladka:playlang [2011/01/21 15:44] mirovsky |
user:hladka:playlang [2011/01/21 16:14] mirovsky |
| |
Alternativně používáme také rozšíření a-roviny z PDT 2.0. | Alternativně používáme také rozšíření a-roviny z PDT 2.0. |
| |
| Data pro projekt playlang jsou v adresáři: ''{ROOT}/playcoref/data/shared'' |
| |
==== Schémata rozšířené m-roviny a rozšířené a-roviny: ==== | ==== Schémata rozšířené m-roviny a rozšířené a-roviny: ==== |
PML schémata jsou zde: ''{ROOT}/playcoref/tred_extension/package/playlang/resources'' | PML schémata jsou zde: ''{ROOT}/playcoref/tred_extension/package/playlang/resources'' |
* obě schémata (a- i m-) obsahují rozšíření o seznam ''coref'' struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); obsahuje atributy: | * obě schémata (a- i m-) obsahují rozšíření o atribut ''coref'' - seznam struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); obsahuje atributy: |
* ''target-node.rf'' - id antecedenta | * ''target-node.rf'' - id antecedenta |
* ''type'' - určuje, o jakou koreferenci jde: textual, grammatical nebo chained (chained znamená: na povrchové rovině je to jeden link, na tekto rovině je to více linků vedoucích přes uzel, který nemá povrchové vyjádření) | * ''type'' - určuje, o jakou koreferenci jde: textual, grammatical nebo chained (chained znamená: na povrchové rovině je to jeden link, na tekto rovině je to více linků vedoucích přes uzel, který nemá povrchové vyjádření) |
* ''head_member.rf'' - id uzlu, který je hlavou pojmenované entity | * ''head_member.rf'' - id uzlu, který je hlavou pojmenované entity |
| |
=== Převod dat PDT 2.0 do formátu playlang: === | ==== Převod dat PDT 2.0 (rozšíření bridging) do formátu playlang: ==== |
V adresáři {ROOT}/playcoref/scripts jsou skripty pro převod textové a gramatické koreference z tektogramatické roviny (a z rozšířené tektogramatické roviny projektu bridging) do rozšířené m-roviny nebo do rozšířené a-roviny: | V adresáři ''{ROOT}/playcoref/scripts'' jsou skripty pro převod textové a gramatické koreference z rozšířené tektogramatické roviny projektu bridging do rozšířené m-roviny nebo do rozšířené a-roviny: |
| |
==== Nejprve se změní schéma souboru (m- nebo a-) ==== | |
| |
| == Nejprve se změní schéma souboru (m- nebo a-): == |
* ''_change_mschema_to_playlang.sh'' - změní schéma m-souborů na mdata_schema_playlang.xml | * ''_change_mschema_to_playlang.sh'' - změní schéma m-souborů na mdata_schema_playlang.xml |
* ''_change_aschema_to_playlang.sh'' - změní schéma a-souborů na adata_schema_playlang.xml (m-soubor je pak klasický z PDT 2.0) | * ''_change_aschema_to_playlang.sh'' - změní schéma a-souborů na adata_schema_playlang.xml (m-soubor je pak klasický z PDT 2.0) |
| |
| == Pak se z rozšířené t-roviny získá seznam koreferenčních dvojic promítnutých na uzly a-roviny nebo m-roviny: == |
* ''coreference_extract_surface_joint.ntred'' - prochází textovou a gramatickou koreferenci na t-rovině z projektu anotování rozšířené textové koreference a vypíše seznam koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-rovině; pokud antecedent nemá povrchové vyjádření, hledá se nejbližší antecedent v řetězci, který povrchové vyjádření má | * ''coreference_extract_surface_joint.ntred'' - prochází textovou a gramatickou koreferenci na t-rovině z projektu anotování rozšířené textové koreference a vypíše seznam koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-rovině; pokud antecedent nemá povrchové vyjádření, hledá se nejbližší antecedent v řetězci, který povrchové vyjádření má |
* ''coreference_extract_surface_a_joint.ntred'' - totéž, ale pro a-rovinu, tj. vypisují se identifikátory a-uzlů odpovídajících koreferenčním dvojicím z t-roviny | * ''coreference_extract_surface_a_joint.ntred'' - totéž, ale pro a-rovinu, tj. vypisují se identifikátory a-uzlů odpovídajících koreferenčním dvojicím z t-roviny |
| |
| == Nakonec se koreferenční dvojice z daného seznamu vloží do rozšířeného m-souboru nebo a-souboru: == |
* ''coreference_add_m.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny | * ''coreference_add_m.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-roviny |
* ''coreference_add_a.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na a-rovině a tyto koreference vkládá do rozšířené a-roviny | * ''coreference_add_a.ntred'' - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na a-rovině a tyto koreference vkládá do rozšířené a-roviny |
| |
| == Některé koreferenční vztahy je možno zamknout: == |
* ''coreference_lock.ntred'' - koreferenční šipky opatří správnými hodnotami atributu lock | * ''coreference_lock.ntred'' - koreferenční šipky opatří správnými hodnotami atributu lock |
| |
Aktuálně převedená data jsou v adresáři: ''{ROOT}/playcoref/data/shared'' | === Pojmenované entity === |
| == Nejprve je potřeba získat seznam pojmenovaných entit: == |
| * To se provádí v TectoMT (kde se ostatně pojmenované entity v souborech automaticky označí). Skript pro vytvoření seznamu pojmenovaných entit se jmenuje ''ne_atrees_to_txt.pl'' a nachází se v TectoMT repozitáři v adresáři ''personal/mirovsky/coreference''. |
| |
| == Pojmenované entity z vytvořeného seznamu se vloží do rozšířeného a-souboru (zatím nebyl potřeba skript i pro m-soubor): == |
| * ''named_entities_add_a.ntred'' - ze seznamu bere id uzlů a informaci o pojmenovaných entitách vkládá do rozšířené a- nebo m-roviny |
| |
| === Vkládání dat do herní databáze === |
| Pro vkládání dat do herní databáze používáme formát csts. |
| |
| == Převod rozšířené a-roviny do rozšířeného csts == |
| * ''convert_atrees_to_csts.ntred'' - skript pro převod rozšířené a-roviny obsahující koreferenci (a případně pojmenované entity) do rozšířeného csts |
| |
==== Zobrazení v Tredu: ==== | ==== Zobrazení v Tredu: ==== |
Pro Tred existuje rozšíření //Play the Language (playlang)//, nainstalovat lze přes //Session->Manage Extensions//. | Pro Tred existuje rozšíření //Play the Language (playlang)//, nainstalovat lze přes //Session->Manage Extensions//. |
(zdroj: {ROOT}/playcoref/tred_extension/playlang.mac) | (zdroj: ''{ROOT}/playcoref/tred_extension'') |
Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových "stromů" a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně. | Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových "stromů" a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně. |
Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na "všechny soubory", aby byly soubory s touto maskou vidět. | Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na "všechny soubory", aby byly soubory s touto maskou vidět. |