[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
external:lexemann:guidelines [2007/02/06 11:32]
stranak
external:lexemann:guidelines [2008/07/03 11:16]
ufal
Line 6: Line 6:
 == SemLex -- slovník víceslovných lexémů == == SemLex -- slovník víceslovných lexémů ==
   * Vyhledávání   * Vyhledávání
-    * je nutno psát tvary lemmatisované; v případě hledání více slov současně spojovat podtržítkem (např. "čistý_ruka") 
   * Přidávání do slovníku   * Přidávání do slovníku
     * nejde-li něco udělat, poznamenat to do "glosa" a označit třemi hvězdičkami (tedy ''%%***%%poznámka'') k dalšímu ručnímu posouzení     * nejde-li něco udělat, poznamenat to do "glosa" a označit třemi hvězdičkami (tedy ''%%***%%poznámka'') k dalšímu ručnímu posouzení
Line 58: Line 57:
 |F8|Next file|//od revize 94//| |F8|Next file|//od revize 94//|
  
-==== Dotazy, nejasnosti ====+ 
 + 
 + 
 + 
 +==== Dotazy, nejasnosti === 
 +Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních: 
 + 
 +  * Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/*dopravní hřích) a co není odlučitelné (*dopravní závažný přestupek).  
 +    - obojí je obvyklé, ale když alespoň jedno neplatí, neznamená to ještě, že o frazém v nějakém smyslu nejde.  
 +      - Máme dost různých kreativních užití ("ne Rudé, ale Šedé právo"; nový význam spojení "Sarajevský atentát"), některé jsou pak časem více či méně lexikalizované. Otázka je, jak "ad hoc" frazémy značit.Prozatím navrhuji zanést jej do Semlexu a do pozn. uvést od jakého frazému je odvozen, pokud je to zřejmé (je-li ten původní kiž v SemLexu, tak ID). 
 +      - //neodlučitelnost// je také sporná. Zaprvé je možná (a běžná) elipsa (Sarajevský atentát -> Sarajevo). To ale není odloučení. Ovšem i rozvití části frazému je ale možné. Co možné není, je porušení přímé závislosti všech částí frazému, neboli rozdělení (přerušení) jeho syntaktického stromu jiným uzlem. 
 +  * Apelativa jako "ulice", "náměstí" (např. ve spojení "Staroměstské náměstí" i "náměstí Míru") apod. jsou součástí pojmenovaných entit 
 +    - ano --ps 
 +  * slovo "zákon" je součástí názvu (zákon o daních, podle zákona 1456/18, Sb.) 
 +    - souhlas. --ps 
 +  * NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, je to INSTITUCE (GVŠ koupila obraz x jdu do GVŠ) 
 +    - ano, přesně tak si to představuji. --ps 
 +  * devět sekund, pět let, 20 hodin – jde o čas ?(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat? 
 +  * Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů ("výkonná rada oddělení obvodního úřadu pro míru nezaměstnanosti"
 +    - //variabilní//: zavést "dostat měsíců natvrdo" apod. vzhledem k syntakt. struktuře se najdou všechny výskyty. Ovšem do poznámky uvést, že to rozvití "měsíců" je obligatorní. Horší je, že zde může variovat i měsíců/let a "natvrdo a podmíněně". Prozatím nezbyde, než to vše mít jako samostatná hesla SemLexu, ale optimální to není. MOC DOBRÝ PŘÍKLAD. DÍKY. --ps 
 +    - //rozvíjitelné//: označit celek, zavést jej do SemLexu. Jeho frazeologické části jsou zajímavý problém do budoucna, ale zcela samostatný. Lexikografická záležitost. Alespoň dokud nenajdete lepší příklad :-) 
 + 
 +  * //značky autorů pod článkem navrhuji značit jako entity reprezentující jména osob// (--ps) 
 +  * Případy jako //první vlna//, //druhá vlna// aj. kazdý značíme jako  frazém, těch vln asi není až tak hodně, max. 10. 
 +  * Ve frazémech typu //přešla mne chut'// značíme jen //přejít chut'//
 + 
 + 
 +==PŠ+PV== 
 + 
 +Ještě technický problém: občas některé lexémy naprosto nevysvětlitelně nelze označit a  program hlásí, že "vybraný text nemá smysl anotovat"(přitom to jsou ale výrazy, které prokazatelně smysl anotovat má), několikrát se to stalo i u celého souboru. (PŠ+PV) 
 +  - potřebujeme přesný údaj, kde se to stalo. Jinak chybu nemůžeme opravit. (--ps) 
 + 
 +  * první příklad, se kterým jsem se dnes setkal: v souboru  ln95047_134.t.gz se (což se stává) opakuje poslední věta dvakrát; v obou případech nelze označit druhou půlku telefonního čísla (= součást adresy). (pš) 
 +  * další příklad: soubor ln95047_137, 6. odstavec, výraz "nemocniční zařízení": lze označit jen "nemocniční", nikoli "zařízení". (pš) 
 +  * dalsi priklady souboru, kdy je posledni veta zdvojena a nektere vyrazy v ni nelze anotovat: davka 14/soubor 18; 14/31;  
 +14/50; 14/72; 15/22, 23 (skoro celé nelze anotovat); 16/51; 16/74; 16/134 (pv) 
 + 
 +Další otázky:  
 +1) jak znacit vyrazy jako: vládní návrh zákona o sociální podpoře 
 + jmena zakonu obecne znacim jako objekty, ale tady se zaroven krizi: vladni navrh, navrh zakona, zakon o socialni podpore a socialni podpora - je v takovych pripadech lepsi zadat cele heslo do slovniku s tim, ze bude slovnik velmi rychle narustat, nebo vyraz rozkouskovat a v tom pripade jak? 
 +2) jak anotovat fakulty a názvy univerzit, obory apod? 
 +3) jak znacit parafraze a nekonecne mnozstvi variaci typu "Zloději nechodí po horách, ale po domácnostech" (pv) 
 + 

[ Back to the navigation ] [ Back to the content ]