[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:moses [2008/12/15 17:24]
zeman Přepínám do bashe.
user:zeman:moses [2008/12/15 17:34]
zeman Párování vět.
Line 61: Line 61:
  
 Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/K/*.gz Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/K/*.gz
-mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.+mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.</code>
  
-Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.:+Cíl ''align'' v příslušném Makefilu nevolá Hunalign, ale Gizu, takže už zřejmě nejde o párování vět, ale tokenů. O Hunalignu (párování vět) se tiše předpokládá, že jsme si ho pustili už dříve sami, nebo že jsme si párování vět zařídili nějak jinak. Viz Ondrova poznámka: paralelní korpusy, které jsme sem nakopírovali, už musí mít na obou stranách stejný počet řádek (= segmentů = vět). 
 + 
 +Pozor, tady už některé věci vyžadují úpravy, např. se tam přistupuje k ''~/diplomka'', čímž se ale má na mysli zřejmě ''/home/bojar/diplomka''
 + 
 +<code bash>Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.:
  
 cd augmented_corpora cd augmented_corpora

[ Back to the navigation ] [ Back to the content ]