[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:en-fr [2012/01/19 14:14]
hlavacova
khresmoi:en-fr [2012/01/19 16:00]
hlavacova
Line 15: Line 15:
  
 ==== HON certified web sites ==== ==== HON certified web sites ====
-asi změ vŠeho.+asi změť všeho možného.
 Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné
 egrep "\.fr" HON_Certified_Web_Sites_1.1.xml | wc → 2675    egrep "\.fr" HON_Certified_Web_Sites_1.1.xml | wc → 2675   
 Asi tam jsou i různé úrovně "podstránek", např. www.grio.org/ a www.grio.org/liens.php Asi tam jsou i různé úrovně "podstránek", např. www.grio.org/ a www.grio.org/liens.php
 +
 +==== JRC ====
 +vseobecna data, ne med
 +http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html
 +podle návodu jsem udělala paralelní korpus ze stažených dat:
 + perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml
 +
 +pocet anglickych vet:
 +egrep "\<s1\>" alignedCorpus_en_fr.xml |wc  → 1250092
 +
 +pocet francouzskych vet:
 +egrep "\<s2\>" alignedCorpus_en_fr.xml | wc → 1250095
 +
 +Nevím, proč se ta čísla liší.
 +egrep "\<link type=" alignedCorpus_en_fr.xml | cut -d" " -f2|sort|uniq -c  →
 +  *  1228037 type="1:1"
 +  *    14162 type="1:2"
 +  *     6607 type="2:1"
 +  *     1284 type="2:2"
 +celkem 1 250 090 linků
 +

[ Back to the navigation ] [ Back to the content ]