[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
external:lexemann:guidelines [2008/07/23 13:40]
stranak
external:lexemann:guidelines [2008/08/26 15:49]
bejcek Odkaz na pravidla, která dosud používala PV
Line 1: Line 1:
 ====== Anotační instrukce ====== ====== Anotační instrukce ======
  
-==== Pravidla ====+===== Pravidla =====
  
-=== SemLex -- slovník víceslovných lexémů ===+==== SemLex -- slovník víceslovných lexémů ====
   * Vyhledávání   * Vyhledávání
   * Přidávání do slovníku   * Přidávání do slovníku
Line 13: Line 13:
     * Je-li potřeba položku smazat, použijte ''%%***%%remove'' a případně připište důvod (vytvořeno omylem, duplicitní heslo, není frazémem, ...)     * Je-li potřeba položku smazat, použijte ''%%***%%remove'' a případně připište důvod (vytvořeno omylem, duplicitní heslo, není frazémem, ...)
  
-=== Pojmenované entity ("NE") ===+==== Pojmenované entity ("NE"====
 **v této fázi se zabýváme jen striktně víceslovnými NE:** tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu. Z toho důvodu neanotujeme ani jednoslovné zkratky víceslovných NE (např. ČSSD). (Pozor, KDU-ČSL má tři tektogramatické uzly, proto je (a všechny ostatní zkratky s pomlčkou, spojovníkem, či mezerou ("MFF UK")) chceme **anotovat** již v této fázi jako instituce). **v této fázi se zabýváme jen striktně víceslovnými NE:** tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu. Z toho důvodu neanotujeme ani jednoslovné zkratky víceslovných NE (např. ČSSD). (Pozor, KDU-ČSL má tři tektogramatické uzly, proto je (a všechny ostatní zkratky s pomlčkou, spojovníkem, či mezerou ("MFF UK")) chceme **anotovat** již v této fázi jako instituce).
  
 Vnitřní struktura nás (prozatím) nezajímá, takže například "Astronomický ústav Univerzity Karlovy v Praze" anotujeme jako jednu jedinou instituci. Vnitřní struktura nás (prozatím) nezajímá, takže například "Astronomický ústav Univerzity Karlovy v Praze" anotujeme jako jednu jedinou instituci.
 +
 +<html><font color="red">V současné podobě jsou instrukce (zejména v oblasti apelativ) někdy až protichůdné. Neznajíce dobré řešení, zveřejňujeme je alespoň tak a řešení zkusíme zkonsultovat s prací O. Krůzy.</font></html>
  
 ---- ----
Line 22: Line 24:
    * **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly    * **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly
      * v případech jako "prezident V. Klaus" nebude 'prezident' anotován jako součást jména. Výraz je totiž do značné míry samostatný, jméno může být i vynecháno. Titul jako součást jména anotujeme jen v případech, kdy nemá samostatný význam, kdy o danou funkci v textu vůbec nejde. V těchto případech je titul typicky zapisován zkratkou. Jméno v těchto případech nemůže být elidováno.      * v případech jako "prezident V. Klaus" nebude 'prezident' anotován jako součást jména. Výraz je totiž do značné míry samostatný, jméno může být i vynecháno. Titul jako součást jména anotujeme jen v případech, kdy nemá samostatný význam, kdy o danou funkci v textu vůbec nejde. V těchto případech je titul typicky zapisován zkratkou. Jméno v těchto případech nemůže být elidováno.
 +     * //profesor P. Novák// -- **jméno** je //P. Novák//
 +     * //prof. Novák// -- **jméno**
 +     * //princ z Walesu// -- nic (je to titul, takže to celé může být přidáno do **SemLex**u)
 +     * //Železná lady// -- přidat do **SemLex**u a anotovat
 +     * (víceslovné značky autorů pod článkem (pokud víceslovné existují) značit jako entity reprezentující jména osob)
  
    * **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**.     * **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**. 
Line 40: Line 47:
      * //Petr Novák, ÚFAL, Malostranské náměstí 25// -- **adresa**      * //Petr Novák, ÚFAL, Malostranské náměstí 25// -- **adresa**
      * //Svoboda, 777 578 975// -- **adresa**      * //Svoboda, 777 578 975// -- **adresa**
 +     * //jdu do galerie Václava Špály// -- **místo**
 +     * //Galerie Václava Špály koupila obraz// -- **instituce**, protože je to personifikace
 +
    * **biblio** je pouze bibliografický údaj, čili něco strukturovaného\\ jméno knihy (stejně jako jméno filmu) je jen **objekt** (zadny **biblio**)\\ Kde je hranice? //Božena Němcová, Babička, str. 143// budeme posuzovat jak? (Kol. Šidák dostal pokyn označit jako **biblio** a poznamenat na papír s připomínkami pro nás)    * **biblio** je pouze bibliografický údaj, čili něco strukturovaného\\ jméno knihy (stejně jako jméno filmu) je jen **objekt** (zadny **biblio**)\\ Kde je hranice? //Božena Němcová, Babička, str. 143// budeme posuzovat jak? (Kol. Šidák dostal pokyn označit jako **biblio** a poznamenat na papír s připomínkami pro nás)
-   * **X** slouží primárně pro nezařaditelné entity\\ prozatím také pro označování množství, neboť to dosud (TODO) nemá vlastní značku+   * **X** slouží primárně pro nezařaditelné entity\\ prozatím také pro označování množství, neboť to dosud (TODO) nemá vlastní značku;\\ pomocí **X** se také anotují např. šachové koncovky
      * //100 -- 200 metrů čtverečních// -- **X**, **objekt**      * //100 -- 200 metrů čtverečních// -- **X**, **objekt**
      * //10 m// -- nic nic      * //10 m// -- nic nic
      * //od 10 do 18 let// -- **X** je "//od 10 do 18//", "//let//" je nic      * //od 10 do 18 let// -- **X** je "//od 10 do 18//", "//let//" je nic
      * //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic      * //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic
 +     * //1. c7 Vd6+ 2. Kb5 Vd5+ 3. Kb4 Vd4+ 4. Kb3 Vd3+ 5. Kc2! Vd4! 6. c8V! Va4 7. Kb3// -- celé jako **X** jakožto šachová koncovka
 +   * **čas** anotujeme pouze v případě odpovědi na otázku "kdy", ne však na otázku "kolik"
 +     * //devět sekund// -- nic (kolik)
 +     * //pět let// -- nic (kolik)
 +     * //20 hodin// -- udává-li období => nic; udává-li večerní čas => 20 by byl **čas**, ale je to jednoslovné => také nic
 +     * //rok 1994// -- FIXME **čas**
 +     * //únor 2002// -- **čas**
 +     * //počátek září 1974// -- //"počátek"// neanotovat, zbytek je **čas**
 +     * //60. léta// -- v zásadě ano, ale 60 je jednoslovné => nic
 +     * //20. století// -- v zásadě ano, ale 20 je jednoslovné => nic
 +     * //20 hodin 15 minut// -- celé **čas**
 +     * //v 1. polovině 20. století// -- nic FIXME
 +     * //léta 1980/1// -- FIXME
 +
  
 Všechna **apelativa** budeme považovat za součást entity. Hlavním důvodem je, že určují její typ. (Příklady: "ulice Politických vězňů", "náměstí Míru", "Staroměstské náměstí", "chrám sv. Víta", "kniha Babička".) Všechna **apelativa** budeme považovat za součást entity. Hlavním důvodem je, že určují její typ. (Příklady: "ulice Politických vězňů", "náměstí Míru", "Staroměstské náměstí", "chrám sv. Víta", "kniha Babička".)
 +  * //Univerzita Karlova v Praze// -- anotovat celé
 +  * //Washington, DC// -- celé
 +  * //Washington, USA// -- celé
 +  * //České Budějovice, Česká republika// -- celé
 +  * //Matematicko-fyzikální fakulta, Univerzita Karlova v Praze// -- celé
 +  * //Filozofická fakulta v Českých Budějovicích// -- zvlášť fakultu, zvlášť město
 +  * //kapela Doors// -- nic (anotovalo by se jen jednoslovné //Doors//)
 +  * //turnaj U.S. Open// -- FIXME
 +  * //chrám sv. Václava// -- FIXME
 +  * //Petr Novák// -- FIXME
 +  * //pan Novák// -- FIXME
 +  * //ulice pplk. Sochora// -- FIXME jsou součástí pojmenovaných entit - ano --ps
 +  * //Staroměstské náměstí// i //náměstí Míru// -- FIXME jsou součástí pojmenovaných entit - ano --ps
 +  * //zákon o daních// -- celé FIXME
 +  * //podle zákona 1456/18, Sb.// -- bez //"podle"// celé FIXME
  
-=== Frazémy ===+ 
 +==== Frazémy ====
  
 Příklady toho, co už není frazém: Příklady toho, co už není frazém:
   * moskevský čas   * moskevský čas
   * antisemitská politika, rasistická politika   * antisemitská politika, rasistická politika
 +
 +Příklady nekomposicionálních frazémů:
 +  * vládní návrh
  
 Eliptické užití frazému se anotuje původním frazémem, tedy například "zrakově postižený" je anotováno slovníkovou položkou "zrakově postižený člověk". Eliptické užití frazému se anotuje původním frazémem, tedy například "zrakově postižený" je anotováno slovníkovou položkou "zrakově postižený člověk".
  
-==== K nástroji sem-ann ====+Parafráze a variace typu //"Zloději nechodí po horách, ale po domácnostech"// se vloží jako nová položka do SemLexu s poznámkou "derived" v Glosse, která odkazuje na původní //"Neštěstí nechodí po horách, ale po lidech"//. (Pokud neexistuje, tak samozřejmě nejprve ho vyrobit, pak vyrobit odvozenou variantu s odkazem na něj.) Podobně //"Ne Rudé, ale Šedé právo"//; nový význam spojení //"Sarajevský atentát"// 
 + 
 + 
 +===== K nástroji sem-ann =====
  
   * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen.   * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen.
Line 77: Line 123:
  
  
-==== Dotazy, nejasnosti ===+ 
 +===== Dotazy, nejasnosti ====
 Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních: Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních:
  
   * Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/*dopravní hřích) a co není odlučitelné (*dopravní závažný přestupek).    * Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/*dopravní hřích) a co není odlučitelné (*dopravní závažný přestupek). 
     - obojí je obvyklé, ale když alespoň jedno neplatí, neznamená to ještě, že o frazém v nějakém smyslu nejde.      - obojí je obvyklé, ale když alespoň jedno neplatí, neznamená to ještě, že o frazém v nějakém smyslu nejde. 
-      - Máme dost různých kreativních užití ("ne Rudé, ale Šedé právo"; nový význam spojení "Sarajevský atentát"), některé jsou pak časem více či méně lexikalizované. Otázka je, jak "ad hoc" frazémy značit.Prozatím navrhuji zanést jej do Semlexu a do pozn. uvést od jakého frazému je odvozen, pokud je to zřejmé (je-li ten původní kiž v SemLexu, tak ID).+      - <del>Máme dost různých kreativních užití ("ne Rudé, ale Šedé právo"; nový význam spojení "Sarajevský atentát"), některé jsou pak časem více či méně lexikalizované. Otázka je, jak "ad hoc" frazémy značit.Prozatím navrhuji zanést jej do Semlexu a do pozn. uvést od jakého frazému je odvozen, pokud je to zřejmé (je-li ten původní kiž v SemLexu, tak ID).</del>
       - //neodlučitelnost// je také sporná. Zaprvé je možná (a běžná) elipsa (Sarajevský atentát -> Sarajevo). To ale není odloučení. Ovšem i rozvití části frazému je ale možné. Co možné není, je porušení přímé závislosti všech částí frazému, neboli rozdělení (přerušení) jeho syntaktického stromu jiným uzlem.       - //neodlučitelnost// je také sporná. Zaprvé je možná (a běžná) elipsa (Sarajevský atentát -> Sarajevo). To ale není odloučení. Ovšem i rozvití části frazému je ale možné. Co možné není, je porušení přímé závislosti všech částí frazému, neboli rozdělení (přerušení) jeho syntaktického stromu jiným uzlem.
-  * Apelativa jako "ulice", "náměstí" (např. ve spojení "Staroměstské náměstí" i "náměstí Míru") apod. jsou součástí pojmenovaných entit +  * <del>Apelativa jako "ulice", "náměstí" (např. ve spojení "Staroměstské náměstí" i "náměstí Míru") apod. jsou součástí pojmenovaných entit</del> 
-    - ano --ps +    - <del>ano --ps</del> 
-  * slovo "zákon" je součástí názvu (zákon o daních, podle zákona 1456/18, Sb.) +  * <del>slovo "zákon" je součástí názvu (zákon o daních, podle zákona 1456/18, Sb.)</del> 
-    - souhlas. --ps +    - <del>souhlas. --ps</del> 
-  * NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, je to INSTITUCE (GVŠ koupila obraz x jdu do GVŠ) +  * <del>NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, je to INSTITUCE (GVŠ koupila obraz x jdu do GVŠ)</del> 
-    - ano, přesně tak si to představuji. --ps +    - <del>ano, přesně tak si to představuji. --ps</del> 
-  * devět sekund, pět let, 20 hodin – jde o čas ?(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat?\\ Nemůžu najít odpověď na tuto otázku -- je někde jinde? Další příklad je "únor 2002" a ten snad anotovat chceme. Ovšem stejně jako všechny předchozí příklady sestává ze dvou (a více) tektogramatických uzlů, což snad je naše kritérium... --EB +  * <del>devět sekund, pět let, 20 hodin – jde o čas ?</del>(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat?\\ <del>Nemůžu najít odpověď na tuto otázku -- je někde jinde? Další příklad je "únor 2002" a ten snad anotovat chceme. Ovšem stejně jako všechny předchozí příklady sestává ze dvou (a více) tektogramatických uzlů, což snad je naše kritérium... --EB</del> 
-  * Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů ("výkonná rada oddělení obvodního úřadu pro míru nezaměstnanosti")+   * Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů ("výkonná rada oddělení obvodního úřadu pro míru nezaměstnanosti")
     - //variabilní//: zavést "dostat měsíců natvrdo" apod. vzhledem k syntakt. struktuře se najdou všechny výskyty. Ovšem do poznámky uvést, že to rozvití "měsíců" je obligatorní. Horší je, že zde může variovat i měsíců/let a "natvrdo a podmíněně". Prozatím nezbyde, než to vše mít jako samostatná hesla SemLexu, ale optimální to není. MOC DOBRÝ PŘÍKLAD. DÍKY. --ps     - //variabilní//: zavést "dostat měsíců natvrdo" apod. vzhledem k syntakt. struktuře se najdou všechny výskyty. Ovšem do poznámky uvést, že to rozvití "měsíců" je obligatorní. Horší je, že zde může variovat i měsíců/let a "natvrdo a podmíněně". Prozatím nezbyde, než to vše mít jako samostatná hesla SemLexu, ale optimální to není. MOC DOBRÝ PŘÍKLAD. DÍKY. --ps
     - //rozvíjitelné//: označit celek, zavést jej do SemLexu. Jeho frazeologické části jsou zajímavý problém do budoucna, ale zcela samostatný. Lexikografická záležitost. Alespoň dokud nenajdete lepší příklad :-)     - //rozvíjitelné//: označit celek, zavést jej do SemLexu. Jeho frazeologické části jsou zajímavý problém do budoucna, ale zcela samostatný. Lexikografická záležitost. Alespoň dokud nenajdete lepší příklad :-)
  
-  * (víceslovné značky autorů pod článkem (pokud víceslovné existují) značit jako entity reprezentující jména osob) 
   * Případy jako //první vlna//, //druhá vlna// aj. kazdý značíme jako  frazém, těch vln asi není až tak hodně, max. 10.   * Případy jako //první vlna//, //druhá vlna// aj. kazdý značíme jako  frazém, těch vln asi není až tak hodně, max. 10.
   * Ve frazémech typu //přešla mne chut'// značíme jen //přejít chut'//.   * Ve frazémech typu //přešla mne chut'// značíme jen //přejít chut'//.
Line 101: Line 147:
  
 ==PŠ+PV== ==PŠ+PV==
- 
-Ještě technický problém: občas některé lexémy naprosto nevysvětlitelně nelze označit a  program hlásí, že "vybraný text nemá smysl anotovat"(přitom to jsou ale výrazy, které prokazatelně smysl anotovat má), několikrát se to stalo i u celého souboru. (PŠ+PV) 
-  - potřebujeme přesný údaj, kde se to stalo. Jinak chybu nemůžeme opravit. (--ps) 
- 
-  * první příklad, se kterým jsem se dnes setkal: v souboru  ln95047_134.t.gz se (což se stává) opakuje poslední věta dvakrát; v obou případech nelze označit druhou půlku telefonního čísla (= součást adresy). (pš) 
-  * další příklad: soubor ln95047_137, 6. odstavec, výraz "nemocniční zařízení": lze označit jen "nemocniční", nikoli "zařízení". (pš) 
-  * dalsi priklady souboru, kdy je posledni veta zdvojena a nektere vyrazy v ni nelze anotovat: davka 14/soubor 18; 14/31;  
-14/50; 14/72; 15/22, 23 (skoro celé nelze anotovat); 16/51; 16/74; 16/134 (pv) 
  
 Další otázky:  Další otázky: 
 1) jak znacit vyrazy jako: vládní návrh zákona o sociální podpoře 1) jak znacit vyrazy jako: vládní návrh zákona o sociální podpoře
  jmena zakonu obecne znacim jako objekty, ale tady se zaroven krizi: vladni navrh, navrh zakona, zakon o socialni podpore a socialni podpora - je v takovych pripadech lepsi zadat cele heslo do slovniku s tim, ze bude slovnik velmi rychle narustat, nebo vyraz rozkouskovat a v tom pripade jak?  jmena zakonu obecne znacim jako objekty, ale tady se zaroven krizi: vladni navrh, navrh zakona, zakon o socialni podpore a socialni podpora - je v takovych pripadech lepsi zadat cele heslo do slovniku s tim, ze bude slovnik velmi rychle narustat, nebo vyraz rozkouskovat a v tom pripade jak?
-2) jak anotovat fakulty a názvy univerzit, obory apod? +2) jak anotovat <del>fakulty a názvy univerzit,</del> obory apod? 
-3) jak znacit parafraze a nekonecne mnozstvi variaci typu "Zloději nechodí po horách, ale po domácnostech" (pv)+3) <del>jak znacit parafraze a nekonecne mnozstvi variaci typu "Zloději nechodí po horách, ale po domácnostech" (pv)</del>
  
- * Další příklad neznačitelného souboru: ln95048_045.t.gz: lze značit jen 1/2 jména Truman Capote. (PŠ)+[[oldlines|Starší pravidla]] (používaná do 2372008).

[ Back to the navigation ] [ Back to the content ]