====== Poznámky k datům ====== ===== JRC-Aquis ===== http://langtech.jrc.it/JRC-Acquis.html ... mono data http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html ... HunAlign alignment http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html ... Vanilla alignment právnická data, ne med Skript na vytvoření paralelních dat: getAlignmentWithText.pl POZOR! v návodu READ.ME se jmenuje jinak. Funguje jen s Vanilla Kdyby se to chtělo udělat s HunAlign stránky, je třeba vstupní data zpracovat takto (cituji z mailu od Ralfa Steinbergera (29.02.2012 14:40:37): > There is a small bug in the hunAlign version of the corpus which prevents > the > getAlignmentWithText.pl scipt from working: all document identifiers (using > the > English-Polish alignemnt as an example) have the string "format/en.pl/jrc" > prepended (or infixed) to the actual document ID. > > This applies to the following attributes: > > - //text/body/div[@n] (eg. "format/en.pl/jrc21970A0720(01)" insted of > "21970A0720(01)") > - //linkGrp[@n] (as above) > - //linkGrp[@id] (eg. "jrcformat/en.pl/jrc21970A0720_01-en-pl" instead of > "jrc21970A0720_01-en-pl") > - //linkGrp[@xtargets] (as above) > > Preprocessing the alignment files with > > sed -i 's:format/en.pl/jrc::g' jrc-en-pl.xml > > is enough to get the script working, but perhaps this information could be > added to the documentation, the Perl script modified for the hunAlign > version > or the alignemnt files modified on the server to save others the confusion > and > unnecessary work. > > With kind regards, > Łukasz Dróżdż > University of Łódź pocet anglickych vet: egrep "\" alignedCorpus_en_fr.xml |wc → 1250092 pocet francouzskych vet: egrep "\" alignedCorpus_en_fr.xml | wc → 1250095 egrep "\ 13127945 352668682 2290530218 http://www.euromatrixplus.net/multi-un/ Při rozbalení originálních korpusů se vytvoří adresáře un/xml a pak podle jazyků, v rámci každého jazyka ještě podle let. Uvnitř jsou pak dokumenty ve velmi jednoduchém XML. Kromě toho je součástí balení README a skript extract.py, který udělá "paralelní data", což ale znamená jen výběr jen těch souborů, jejichž texty jsou ve všech požadovaných jazycích (shoduje se název kromě zkratky jazyka) a potom ještě vytažení čistého textu z XML. Alignment je už součástí textů - číslování odstavců a vět, ale namátkovou kontrolou to moc nesedí, proto jsme se rozhodli to nepoužít. Zpracované jsou tedy jen jednojazyčné texty, ale v tabulce je uveden alignment podle vět, aby se vědělo, že to nějak (!) uděláno je. Jelikož výroba dat je snadná (popsáno v README), data jsme smazali, v original jsou jen původní zabalené soubory. ===== much.more ===== 8-) Alignované abstrakty medicínských článů, staženo, >1 Mw Volitelně anotace: Automatic (!) annotation includes: Part-of-Speech; Morphology (inflection and decomposition); Chunks; Semantic Classes (UMLS: Unified Medical Language System, MeSH: Medical Subject Headings, EuroWordNet); Semantic Relations from UMLS. ===== LDC ===== Uvádím data nalezená v katalogu LDC, která by se případně taky dala použít, ale jsou dost drahá. * **Hansard French/English** ... LDC Catalog No.: LDC95T20, government documents To by bylo třeba objednat, ale je to drahé: Member fee: $0 for 1995, 1996, 1997 members Reduced-License Fee: US $3250.00 * **UN Parallel Text (Complete)** ... LDC Catalog No.: LDC94T4A, jazyky EN, FR, SP, government documents To by bylo třeba objednat, ale je to drahé: Member fee: $0 for 1994 members Non-member Fee: US $4000.00 Reduced-License Fee: US $2000.00 ===== HON certified web sites ===== 8-) asi změť všeho možného. Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné egrep "\.fr" HON_Certified_Web_Sites_1.1.xml | wc → 2675 Asi tam jsou i různé úrovně "podstránek", např. www.grio.org/ a www.grio.org/liens.php