[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:tsd2010 [2010/06/01 11:59]
zeman encs-verbparticle do tabulky.
user:zeman:tsd2010 [2010/08/25 11:30]
zeman Parsing Czengu.
Line 1: Line 1:
 ====== Pokusy s předzpracováním paralelních textů pro TSD 2010 ====== ====== Pokusy s předzpracováním paralelních textů pro TSD 2010 ======
 +
 +===== Předzpracování =====
 +
 +Zdrojová anglická strana paralelního korpusu se nejdříve prožene značkováním a parsingem v TectoMT. Výsledek se schovává ve složce ''en.parsed'' příslušného augmented korpusu jako ''.tmt'' soubory. Nad nimi se potom provádějí transformace, specifické pro každý pokus. Mám na to v TectoMT aplikaci, akorát pro celý Czeng by trvala strašně dlouho a Ondra už parsing provedl, takže stačí ho vzít a převést. O.:
 +
 +"Mam, ale je tam zvlast anglictina a cestina (a zadny alignment). Nebude ale velky problem to spojit.
 +
 +/home/bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora/{czeng092-*,emea2}/{cs,en}NaLOT.gz
 +
 +Jen upozornuju, ze to nejsou tmt soubory, ale lot, line-oriented-tmt, co radek, to bundle. Prevod do tmt viz tools/format_convertors/line-oriented-tmt, ale *opatrne*. Viz jak 100 bundlu tmt soubory neunesou (resp. nikdo je pak v rozumnem case nenacte.)"
  
 ===== Výsledky ===== ===== Výsledky =====

[ Back to the navigation ] [ Back to the content ]