[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:data_notes [2012/02/29 10:00]
hlavacova
khresmoi:data_notes [2012/02/29 13:51]
hlavacova
Line 7: Line 7:
 Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje.  Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje. 
 Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem. Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem.
 +
 +===== Coppa =====
 +Corpus Of Parallel Patent Applications
 +Dostali jsme na DVD na vyžádání.
 +IPC: A61, C12N, C12P ... medical patents (doporučeno od WIPO)
 +Patenty členěny podle roku, ve dvou verzích:
 +  * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny.
 +  * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
 +Zatím jsem udělala jen ty nesegmentované.
 +
 +===== MAREC =====
 +A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files 
 +Nevím, kolik slov, není to v jednolitém balíku.
 +Na žádost o přístup odpověděli:
 +//the IRF is not granting access to the MAREC collection anymore. However, the access for research purposes should be possible in a foreseeable future via the Vienna University of Technology - Allan will certainly come back to you when the legal status is cleared.//
 +
 +===== TDA =====
 +Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data. 
 +

[ Back to the navigation ] [ Back to the content ]