[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki

[ Back to the navigation ]


This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:data_notes [2012/02/29 14:36]
khresmoi:data_notes [2012/03/01 15:57]
Line 2: Line 2:
 ===== JRC-Aquis ===== ===== JRC-Aquis =====
-http://langtech.jrc.it/JRC-Acquis.html +http://langtech.jrc.it/JRC-Acquis.html  ... mono data 
-http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html +http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html  ... HunAlign alignment 
-vseobecna data, ne med +http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html  ... Vanilla alignment 
-podle návodu jsem (leden 2012) udělala paralelní korpus ze stažených dat: + 
- perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml +právnická data, ne med 
-ALE +Skript na vytvoření paralelních dat: getAlignmentWithText.pl 
-Data z **JRC-Aquis** se během posledních několika týdnů změnilatakže nejsou kompatibilní se skriptem, který je k nim dodáván, ten se nezměnil. Měla jsem zálohovaná data z páru fr-en, tak jsem je zpracovala, jsou na svém místěV adresáři original jsou i ostatní data, tjpro páry de-en a cs-en, ale nejsou zpracovaná, protože ty jsem v lednu nestáhla. +POZOR! v návodu READ.ME se jmenuje jinak
-Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.shTen je připravenale jak jsem napsalana současných datech nefunguje.  +Funguje jen s Vanilla 
-Z porovnání obou paralelních fr-en dat usuzujiže na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem.+Kdyby se to chtělo udělat s HunAlign stránky, je třeba vstupní data zpracovat takto (cituji mailu od Ralfa Steinbergera (29.02.2012 14:40:37): 
 +> There is a small bug in the hunAlign version of the corpus which prevents 
 +> the 
 +> getAlignmentWithText.pl scipt from working: all document identifiers (using 
 +> the 
 +> English-Polish alignemnt as an example) have the string "format/en.pl/jrc" 
 +> prepended (or infixed) to the actual document ID. 
 +> This applies to the following attributes: 
 +//text/body/div[@n] (eg. "format/en.pl/jrc21970A0720(01)" insted of 
 +> "21970A0720(01)"
 +//linkGrp[@n] (as above) 
 +> - //linkGrp[@id] (eg. "jrcformat/en.pl/jrc21970A0720_01-en-plinstead of 
 +> - //linkGrp[@xtargets] (as above) 
 +> Preprocessing the alignment files with 
 +> sed -i 's:format/en.pl/jrc::g' jrc-en-pl.xml 
 +> is enough to get the script workingbut perhaps this information could be 
 +> added to the documentationthe Perl script modified for the hunAlign 
 +> version 
 +> or the alignemnt files modified on the server to save others the confusion 
 +> and 
 +> unnecessary work
 +> With kind regards, 
 +> Łukasz Dróżdż 
 +> University of Łódź
-podle návodu jsem udělala paralelní korpus ze stažených dat: 
- perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml 
 pocet anglickych vet: pocet anglickych vet:
Line 46: Line 74:
   * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny.   * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny.
   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
-Zatím jsem udělala jen ty nesegmentované.+ 
 +Zpracované obojí, viz read.me u dat.
 ===== French Gigaword ===== ===== French Gigaword =====
Line 121: Line 150:
 Automatic (!) annotation includes: Part-of-Speech; Morphology (inflection and decomposition); Chunks; Semantic Classes (UMLS: Unified Medical Language System, MeSH: Medical Subject Headings, EuroWordNet); Semantic Relations from UMLS. Automatic (!) annotation includes: Part-of-Speech; Morphology (inflection and decomposition); Chunks; Semantic Classes (UMLS: Unified Medical Language System, MeSH: Medical Subject Headings, EuroWordNet); Semantic Relations from UMLS.
 +===== LDC =====
 +Uvádím data nalezená v katalogu LDC, která by se případně taky dala použít, ale jsou dost drahá.
 +  * **Hansard French/English** ... LDC Catalog No.: LDC95T20, government documents
 +To by bylo třeba objednat, ale je to drahé:
 +Member fee: $0 for 1995, 1996, 1997 members
 +Reduced-License Fee: US $3250.00
 +  * **UN Parallel Text (Complete)** ... LDC Catalog No.: LDC94T4A, jazyky EN, FR, SP, government documents
 +To by bylo třeba objednat, ale je to drahé:
 +Member fee: $0 for 1994 members
 +Non-member Fee: US $4000.00
 +Reduced-License Fee: US $2000.00
 ===== HON certified web sites ===== ===== HON certified web sites =====

[ Back to the navigation ] [ Back to the content ]