Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision | Next revision Both sides next revision | ||
khresmoi:data_notes [2012/02/29 14:31] hlavacova |
khresmoi:data_notes [2012/02/29 14:34] hlavacova |
||
---|---|---|---|
Line 11: | Line 11: | ||
Zpracování fr-en jsem provedla " | Zpracování fr-en jsem provedla " | ||
Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem. | Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem. | ||
- | |||
http:// | http:// | ||
Line 54: | Line 53: | ||
862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated | 862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated | ||
Všeobecné novinové texty, ne lékařské - Agence France-Presse, | Všeobecné novinové texty, ne lékařské - Agence France-Presse, | ||
+ | |||
+ | ===== MESH ===== | ||
+ | Staženo ze stránky http:// | ||
+ | |||
+ | Z možných formátů jsem stáhla jen ASCII zaznamy. | ||
+ | | ||
+ | * MH = nazev leku - celkem 26581 položek | ||
+ | * MS = slovni popis - celkem | ||
+ | |||
+ | **q2012.bin** ... Dulezite jsou jen polozky | ||
+ | * SH = nazev, ale nevim moc, ceho - celkem 83 | ||
+ | * MS = slovni popis - celkem 83 | ||
+ | |||
+ | Slovní popis je krátký odstavec, jehož první věta většinou neobsahuje sloveso! Takže to vlastně ani není věta. | ||
+ | |||
+ | **c2012.bin** ... tohle je ale vlastne jen chemicke, asi nepouzit | ||
+ | * NM = nazev leku | ||
+ | * NO = popis | ||
+ | |||
+ | Jeste jsou tam data z roku 2011: d2011.bin, q2011.bin, ale ty by mohly byt | ||
+ | podmnozinou tech z roku 2012 - namatkove overeno na | ||
+ | MH = Autistic Disorder | ||
===== MAREC ===== | ===== MAREC ===== |