[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
khresmoi:en-fr [2012/01/19 14:15]
hlavacova
khresmoi:en-fr [2012/01/19 15:59]
hlavacova
Line 19: Line 19:
 egrep "\.fr" HON_Certified_Web_Sites_1.1.xml | wc → 2675    egrep "\.fr" HON_Certified_Web_Sites_1.1.xml | wc → 2675   
 Asi tam jsou i různé úrovně "podstránek", např. www.grio.org/ a www.grio.org/liens.php Asi tam jsou i různé úrovně "podstránek", např. www.grio.org/ a www.grio.org/liens.php
 +
 +==== JRC ====
 +vseobecna data, ne med
 +http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html
 +podle návodu jsem udělala paralelní korpus ze stažených dat:
 + perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml
 +
 +pocet anglickych vet:
 +egrep "\<s1\>" alignedCorpus_en_fr.xml |wc  → 1250092
 +
 +pocet francouzskych vet:
 +egrep "\<s2\>" alignedCorpus_en_fr.xml | wc → 1250095
 +
 +Nevím, proč se ta čísla liší.
 +egrep "\<link type=" alignedCorpus_en_fr.xml | cut -d" " -f2|sort|uniq -c
 +1228037 type="1:1"
 +  14162 type="1:2"
 +   6607 type="2:1"
 +   1284 type="2:2"
 +celkem 1 250 090 linků
 +

[ Back to the navigation ] [ Back to the content ]