[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
khresmoi:data_notes [2012/02/29 10:00]
hlavacova
khresmoi:data_notes [2012/02/29 13:47]
hlavacova
Line 7: Line 7:
 Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje.  Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje. 
 Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem. Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem.
 +
 +===== Coppa =====
 +
 +Corpus Of Parallel Patent Applications
 +Dostali jsme na DVD na vyžádání.
 +IPC: A61, C12N, C12P ... medical patents (doporučeno od WIPO)
 +Patenty členěny podle roku, ve dvou verzích:
 +  * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny.
 +  * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
 +Zatím jsem udělala jen ty nesegmentované.

[ Back to the navigation ] [ Back to the content ]