[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Paralelní data EN-FR

Zatím mám vše uloženo u sebe. — hlavacova 2012/01/19 11:08

EMEA

Zdroj: http://opus.lingfil.uu.se/EMEA.php
en-fr.tmx.gz … alignovana data - download translation memory files (TMX), 373 152 sentence pairs
en-fr.xml.gz … sentence alignments in XCES format
en-fr.txt.zip … jen angl. texty o lécich - vypadá to jako příbalové letáky 1 092 568 sentences, 26,34M words, download plain text files (MOSES/GIZA++)
Adresář fr obsahuje francouzské texty, snad paralelní k en-fr.txt.zip (ověřím), v nějakém XML, morfologicky označkované. 1987 files, 14.9M tokens, 1.2M sentences

Orphanet

HON negotiates, to se bude muset prolejzat

HON certified web sites

asi změ vŠeho.
Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné
egrep “\.fr” HON_Certified_Web_Sites_1.1.xml | wc → 2675
Asi tam jsou i různé úrovně “podstránek”, např. www.grio.org/ a www.grio.org/liens.php


[ Back to the navigation ] [ Back to the content ]