[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
khresmoi:data_notes [2012/02/29 14:31]
hlavacova
khresmoi:data_notes [2012/02/29 14:34]
hlavacova
Line 11: Line 11:
 Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje.  Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje. 
 Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem. Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem.
- 
  
 http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html
Line 54: Line 53:
 862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated 862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated
 Všeobecné novinové texty, ne lékařské - Agence France-Presse, Associated Press French Service. Všeobecné novinové texty, ne lékařské - Agence France-Presse, Associated Press French Service.
 +
 +===== MESH =====
 +Staženo ze stránky http://www.nlm.nih.gov/mesh/filelist.html
 +
 +Z možných formátů jsem stáhla jen ASCII zaznamy.
 + **d2012.bin**  ... Dulezite jsou jen polozky 
 +  * MH = nazev leku - celkem 26581 položek
 +  * MS = slovni popis - celkem  25554  ... nějaké asi chybí
 +
 +**q2012.bin** ... Dulezite jsou jen polozky
 +  * SH = nazev, ale nevim moc, ceho - celkem 83
 +  * MS = slovni popis - celkem 83
 +
 +Slovní popis je krátký odstavec, jehož první věta většinou neobsahuje sloveso! Takže to vlastně ani není věta.
 +
 +**c2012.bin** ... tohle je ale vlastne jen chemicke, asi nepouzit
 +  * NM = nazev leku
 +  * NO = popis
 +
 +Jeste jsou tam data z roku 2011: d2011.bin, q2011.bin, ale ty by mohly byt
 +podmnozinou tech z roku 2012 - namatkove overeno na 
 +MH = Autistic Disorder
  
 ===== MAREC ===== ===== MAREC =====

[ Back to the navigation ] [ Back to the content ]