[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
khresmoi:data_notes [2012/02/29 14:01]
hlavacova
khresmoi:data_notes [2012/02/29 14:18]
hlavacova
Line 4: Line 4:
 http://langtech.jrc.it/JRC-Acquis.html http://langtech.jrc.it/JRC-Acquis.html
 http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html
 +vseobecna data, ne med
 +podle návodu jsem (leden 2012) udělala paralelní korpus ze stažených dat:
 + perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml
 +ALE
 Data z **JRC-Aquis** se během posledních několika týdnů změnila, takže nejsou kompatibilní se skriptem, který je k nim dodáván, ten se nezměnil. Měla jsem zálohovaná data z páru fr-en, tak jsem je zpracovala, jsou na svém místě. V adresáři original jsou i ostatní data, tj. pro páry de-en a cs-en, ale nejsou zpracovaná, protože ty jsem v lednu nestáhla. Data z **JRC-Aquis** se během posledních několika týdnů změnila, takže nejsou kompatibilní se skriptem, který je k nim dodáván, ten se nezměnil. Měla jsem zálohovaná data z páru fr-en, tak jsem je zpracovala, jsou na svém místě. V adresáři original jsou i ostatní data, tj. pro páry de-en a cs-en, ale nejsou zpracovaná, protože ty jsem v lednu nestáhla.
 Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje.  Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje. 
 Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem. Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem.
 +
 +
 +http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html
 +podle návodu jsem udělala paralelní korpus ze stažených dat:
 + perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml
 +
 +pocet anglickych vet:
 +egrep "\<s1\>" alignedCorpus_en_fr.xml |wc  → 1250092
 +
 +pocet francouzskych vet:
 +egrep "\<s2\>" alignedCorpus_en_fr.xml | wc → 1250095
 +
 +egrep "\<link type=" alignedCorpus_en_fr.xml | cut -d" " -f2|sort|uniq -c  →
 +  *  1228037 type="1:1"
 +  *    14162 type="1:2"
 +  *     6607 type="2:1"
 +  *     1284 type="2:2"
 +celkem 1 250 090 linků
 +
 +
  
 ===== Coppa ===== ===== Coppa =====

[ Back to the navigation ] [ Back to the content ]