[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:moses [2008/12/15 17:24]
zeman Přepínám do bashe.
user:zeman:moses [2008/12/15 17:31]
zeman Párování.
Line 27: Line 27:
  
 Nastavuju cesty ''PWD'' a ''WS'' na začátku Makefilu. ''PWD'' vede na právě vytvořený ''moses_playground'', ''WS'' je název právě vytvořeného pracovního prostoru ''workspace.20081215-1642''. Nastavuju cesty ''PWD'' a ''WS'' na začátku Makefilu. ''PWD'' vede na právě vytvořený ''moses_playground'', ''WS'' je název právě vytvořeného pracovního prostoru ''workspace.20081215-1642''.
 +
  
 ===== Příprava korpusů ===== ===== Příprava korpusů =====
Line 61: Line 62:
  
 Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/K/*.gz Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/K/*.gz
-mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.+mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.</code> 
 + 
 +Cíl ''align'' v příslušném Makefilu nevolá Hunalign, ale Gizu, takže už zřejmě nejde o párování vět, ale tokenů. Pozor, tady už některé věci vyžadují úpravy, např. se tam přistupuje k ''~/diplomka'', čímž se ale má na mysli zřejmě ''/home/bojar/diplomka''.
  
-Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.:+<code bash>Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.:
  
 cd augmented_corpora cd augmented_corpora

[ Back to the navigation ] [ Back to the content ]