[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
khresmoi:data_notes [2012/02/29 14:34]
hlavacova
khresmoi:data_notes [2012/06/13 10:15] (current)
hlavacova
Line 2: Line 2:
  
 ===== JRC-Aquis ===== ===== JRC-Aquis =====
-http://langtech.jrc.it/JRC-Acquis.html +http://langtech.jrc.it/JRC-Acquis.html  ... mono data 
-http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html +http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html  ... HunAlign alignment 
-vseobecna data, ne med +http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html  ... Vanilla alignment 
-podle návodu jsem (leden 2012) udělala paralelní korpus ze stažených dat: + 
- perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml +právnická data, ne med 
-ALE +Skript na vytvoření paralelních dat: getAlignmentWithText.pl 
-Data z **JRC-Aquis** se během posledních několika týdnů změnilatakže nejsou kompatibilní se skriptem, který je k nim dodáván, ten se nezměnil. Měla jsem zálohovaná data z páru fr-en, tak jsem je zpracovala, jsou na svém místěV adresáři original jsou i ostatní data, tjpro páry de-en a cs-en, ale nejsou zpracovaná, protože ty jsem v lednu nestáhla. +POZOR! v návodu READ.ME se jmenuje jinak
-Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.shTen je připravenale jak jsem napsalana současných datech nefunguje.  +Funguje jen s Vanilla 
-Z porovnání obou paralelních fr-en dat usuzujiže na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem.+Kdyby se to chtělo udělat s HunAlign stránky, je třeba vstupní data zpracovat takto (cituji mailu od Ralfa Steinbergera (29.02.2012 14:40:37): 
 + 
 +> There is a small bug in the hunAlign version of the corpus which prevents 
 +> the 
 +> getAlignmentWithText.pl scipt from working: all document identifiers (using 
 +> the 
 +> English-Polish alignemnt as an example) have the string "format/en.pl/jrc" 
 +> prepended (or infixed) to the actual document ID. 
 +>  
 +> This applies to the following attributes: 
 +>  
 +//text/body/div[@n] (eg. "format/en.pl/jrc21970A0720(01)" insted of 
 +> "21970A0720(01)"
 +//linkGrp[@n] (as above) 
 +> - //linkGrp[@id] (eg. "jrcformat/en.pl/jrc21970A0720_01-en-plinstead of 
 +"jrc21970A0720_01-en-pl"
 +> - //linkGrp[@xtargets] (as above) 
 +>  
 +> Preprocessing the alignment files with 
 +>  
 +> sed -i 's:format/en.pl/jrc::g' jrc-en-pl.xml 
 +>  
 +> is enough to get the script workingbut perhaps this information could be 
 +> added to the documentationthe Perl script modified for the hunAlign 
 +> version 
 +> or the alignemnt files modified on the server to save others the confusion 
 +> and 
 +> unnecessary work
 +>  
 +> With kind regards, 
 +> Łukasz Dróżdż 
 +> University of Łódź
  
-http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html 
-podle návodu jsem udělala paralelní korpus ze stažených dat: 
- perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml 
  
 pocet anglickych vet: pocet anglickych vet:
Line 46: Line 74:
   * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny.   * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny.
   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
-Zatím jsem udělala jen ty nesegmentované.+Zpracované obojí, viz read.me u dat.  
 +**POZOR!!! segmentovaná a nesegmentovaná verze neobsahují totéž**
  
 ===== French Gigaword ===== ===== French Gigaword =====
Line 55: Line 84:
  
 ===== MESH ===== ===== MESH =====
 +**EN**
 Staženo ze stránky http://www.nlm.nih.gov/mesh/filelist.html Staženo ze stránky http://www.nlm.nih.gov/mesh/filelist.html
  
Line 61: Line 91:
   * MH = nazev leku - celkem 26581 položek   * MH = nazev leku - celkem 26581 položek
   * MS = slovni popis - celkem  25554  ... nějaké asi chybí   * MS = slovni popis - celkem  25554  ... nějaké asi chybí
- 
 **q2012.bin** ... Dulezite jsou jen polozky **q2012.bin** ... Dulezite jsou jen polozky
   * SH = nazev, ale nevim moc, ceho - celkem 83   * SH = nazev, ale nevim moc, ceho - celkem 83
   * MS = slovni popis - celkem 83   * MS = slovni popis - celkem 83
 +  * 
 Slovní popis je krátký odstavec, jehož první věta většinou neobsahuje sloveso! Takže to vlastně ani není věta. Slovní popis je krátký odstavec, jehož první věta většinou neobsahuje sloveso! Takže to vlastně ani není věta.
- 
 **c2012.bin** ... tohle je ale vlastne jen chemicke, asi nepouzit **c2012.bin** ... tohle je ale vlastne jen chemicke, asi nepouzit
   * NM = nazev leku   * NM = nazev leku
Line 75: Line 103:
 podmnozinou tech z roku 2012 - namatkove overeno na  podmnozinou tech z roku 2012 - namatkove overeno na 
 MH = Autistic Disorder MH = Autistic Disorder
 +
 +**FR**
 +Francouzi mají překlad, je možno o něj zažádat z téhle adresy:
 +http://mesh.inserm.fr/mesh/get_file.htm
  
 ===== MAREC ===== ===== MAREC =====
Line 116: Line 148:
   1825077  47667366 314658361 europarl-v6.fr-en.fr   1825077  47667366 314658361 europarl-v6.fr-en.fr
 Stažený nástroj na alignment. Stažený nástroj na alignment.
 +
 +===== UN =====
 +Data z projektu Euromatrix
 +Staženo ze stránky (navíc španělské texty, kterých je zcat ../un.es.gz|wc  -> 13127945 352668682 2290530218
 +http://www.euromatrixplus.net/multi-un/
 +Při rozbalení originálních korpusů se vytvoří adresáře un/xml a pak podle jazyků, v rámci každého jazyka ještě podle let. Uvnitř jsou pak dokumenty ve velmi jednoduchém XML.
 +Kromě toho je součástí balení README a skript extract.py, který udělá "paralelní data", což ale znamená jen výběr jen těch souborů, jejichž texty jsou ve všech požadovaných jazycích (shoduje se název kromě zkratky jazyka) a potom ještě vytažení čistého textu z XML. Alignment je už součástí textů - číslování odstavců a vět, ale namátkovou kontrolou to moc nesedí, proto jsme se rozhodli to nepoužít.
 +Zpracované jsou tedy jen jednojazyčné texty, ale v tabulce je uveden alignment podle vět, aby se vědělo, že to nějak (!) uděláno je. Jelikož výroba dat je snadná (popsáno v README), data jsme smazali, v original jsou jen původní zabalené soubory.
  
 ===== much.more ===== ===== much.more =====
Line 123: Line 163:
 Automatic (!) annotation includes: Part-of-Speech; Morphology (inflection and decomposition); Chunks; Semantic Classes (UMLS: Unified Medical Language System, MeSH: Medical Subject Headings, EuroWordNet); Semantic Relations from UMLS. Automatic (!) annotation includes: Part-of-Speech; Morphology (inflection and decomposition); Chunks; Semantic Classes (UMLS: Unified Medical Language System, MeSH: Medical Subject Headings, EuroWordNet); Semantic Relations from UMLS.
  
 +===== LDC =====
 +Uvádím data nalezená v katalogu LDC, která by se případně taky dala použít, ale jsou dost drahá.
 +  * **Hansard French/English** ... LDC Catalog No.: LDC95T20, government documents
 +To by bylo třeba objednat, ale je to drahé:
 +Member fee: $0 for 1995, 1996, 1997 members
 +Reduced-License Fee: US $3250.00
 +  * **UN Parallel Text (Complete)** ... LDC Catalog No.: LDC94T4A, jazyky EN, FR, SP, government documents
 +To by bylo třeba objednat, ale je to drahé:
 +Member fee: $0 for 1994 members
 +Non-member Fee: US $4000.00
 +Reduced-License Fee: US $2000.00
  
 ===== HON certified web sites ===== ===== HON certified web sites =====

[ Back to the navigation ] [ Back to the content ]