[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:moses [2008/12/15 17:22]
zeman Úprava.
user:zeman:moses [2008/12/15 17:31]
zeman Párování.
Line 27: Line 27:
  
 Nastavuju cesty ''PWD'' a ''WS'' na začátku Makefilu. ''PWD'' vede na právě vytvořený ''moses_playground'', ''WS'' je název právě vytvořeného pracovního prostoru ''workspace.20081215-1642''. Nastavuju cesty ''PWD'' a ''WS'' na začátku Makefilu. ''PWD'' vede na právě vytvořený ''moses_playground'', ''WS'' je název právě vytvořeného pracovního prostoru ''workspace.20081215-1642''.
- 
  
  
Line 47: Line 46:
  
 Nějaké podsložky už tam jsou. Vytvářím novou ''enhi-dan'' a kopíruju do ní Ondrovy příklady souborů .gz a .info. Tím jsem získal kopii anglicko-hindského korpusu EILMT (7000 vět). Korpus je tokenizovaný a spárovaný po větách. Nějaké podsložky už tam jsou. Vytvářím novou ''enhi-dan'' a kopíruju do ní Ondrovy příklady souborů .gz a .info. Tím jsem získal kopii anglicko-hindského korpusu EILMT (7000 vět). Korpus je tokenizovaný a spárovaný po větách.
 +
 +**Před dalšími operacemi raději přepínám z tcsh do bashe, který používá Ondra.**
  
 <code bash>Pak nechas vyrobit alignment, bud rucne, nebo napr.: <code bash>Pak nechas vyrobit alignment, bud rucne, nebo napr.:
Line 61: Line 62:
  
 Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/K/*.gz Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/K/*.gz
-mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.+mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.</code> 
 + 
 +Cíl ''align'' v příslušném Makefilu nevolá Hunalign, ale Gizu, takže už zřejmě nejde o párování vět, ale tokenů. Pozor, tady už některé věci vyžadují úpravy, např. se tam přistupuje k ''~/diplomka'', čímž se ale má na mysli zřejmě ''/home/bojar/diplomka''.
  
-Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.:+<code bash>Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.:
  
 cd augmented_corpora cd augmented_corpora

[ Back to the navigation ] [ Back to the content ]