[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:hladka:playlang [2011/01/24 11:39]
ufal
user:hladka:playlang [2011/01/25 12:36]
mirovsky
Line 48: Line 48:
    - vypsat projekty (//Do konce unora//)    - vypsat projekty (//Do konce unora//)
   * **Ukoly pro Baru**   * **Ukoly pro Baru**
-   - sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//)+   :-) sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//)
    - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//)    - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//)
    - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn ''\playlang_UFAL\doc\papers\2011_PBML_96''    - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn ''\playlang_UFAL\doc\papers\2011_PBML_96''
Line 238: Line 238:
 == Převod rozšířené a-roviny do rozšířeného csts == == Převod rozšířené a-roviny do rozšířeného csts ==
   * ''convert_atrees_to_csts.ntred'' - skript pro převod rozšířené a-roviny obsahující koreferenci (a případně pojmenované entity) do rozšířeného csts   * ''convert_atrees_to_csts.ntred'' - skript pro převod rozšířené a-roviny obsahující koreferenci (a případně pojmenované entity) do rozšířeného csts
 +
 +==== Převod dat z prostého textu do formátu playlang: ====
 +Využíváme analýzu v modulárním systému TectoMT.
 +
 +Postup při zpracování české verze Studie v Šarlatové byl tento:
 +  - do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná
 +  - následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT
 +  - ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény
 +  - nalezené pojmenované entity jsem vyextrahoval pomocí skriptu ''ne_atrees_to_txt.pl'' do textového souboru; z něj pak jdou později vložit do stejných dat v jiném formátu než tmt
 +  - 
  
 ==== Zobrazení v Tredu: ==== ==== Zobrazení v Tredu: ====

[ Back to the navigation ] [ Back to the content ]