[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
external:lexemann:guidelines [2008/07/17 23:53]
pavel.sidak
external:lexemann:guidelines [2008/08/25 14:57]
bejcek další doplnění pravidel, časové NE
Line 1: Line 1:
 ====== Anotační instrukce ====== ====== Anotační instrukce ======
- 
  
  
Line 13: Line 12:
     * je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci     * je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci
       * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''.       * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''.
-    * Pokud přidáváte položku zřetelně odvozenou od jiné, která už ve slovníku je, poznamenejte to opět do glosy jako ''%%***%%derived: <ID číslo původní položky>''\\ později bude vyhledání přidáno přimo do programu (např. "zrakově postižený člověk" je odvozený od "zdravotně postižený člověk").+    * Pokud přidáváte položku zřetelně odvozenou od jiné, která už ve slovníku je, poznamenejte to opět do glosy jako ''%%***%%derived from: <ID číslo původní položky>''\\ později bude vyhledání přidáno přimo do programu (např. "zrakově postižený člověk" je odvozený od "zdravotně postižený člověk").
     * Pro frazémy neurčitého slovního druhu (jako např. "laicky řečeno" -- asi částice?) a větné frazémy (jako přísloví) bude možno v příští verzi vybrat N/A.     * Pro frazémy neurčitého slovního druhu (jako např. "laicky řečeno" -- asi částice?) a větné frazémy (jako přísloví) bude možno v příští verzi vybrat N/A.
     * Je-li potřeba položku smazat, použijte ''%%***%%remove'' a případně připište důvod (vytvořeno omylem, duplicitní heslo, není frazémem, ...)     * Je-li potřeba položku smazat, použijte ''%%***%%remove'' a případně připište důvod (vytvořeno omylem, duplicitní heslo, není frazémem, ...)
Line 21: Line 20:
  
 Vnitřní struktura nás (prozatím) nezajímá, takže například "Astronomický ústav Univerzity Karlovy v Praze" anotujeme jako jednu jedinou instituci. Vnitřní struktura nás (prozatím) nezajímá, takže například "Astronomický ústav Univerzity Karlovy v Praze" anotujeme jako jednu jedinou instituci.
 +
 +<html><font color="red">V současné podobě jsou instrukce (zejména v oblasti apelativ) někdy až protichůdné. Neznajíce dobré řešení, zveřejňujeme je alespoň tak a řešení zkusíme zkonsultovat s prací O. Krůzy.</font></html>
  
 ---- ----
Line 26: Line 27:
    * **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly    * **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly
      * v případech jako "prezident V. Klaus" nebude 'prezident' anotován jako součást jména. Výraz je totiž do značné míry samostatný, jméno může být i vynecháno. Titul jako součást jména anotujeme jen v případech, kdy nemá samostatný význam, kdy o danou funkci v textu vůbec nejde. V těchto případech je titul typicky zapisován zkratkou. Jméno v těchto případech nemůže být elidováno.      * v případech jako "prezident V. Klaus" nebude 'prezident' anotován jako součást jména. Výraz je totiž do značné míry samostatný, jméno může být i vynecháno. Titul jako součást jména anotujeme jen v případech, kdy nemá samostatný význam, kdy o danou funkci v textu vůbec nejde. V těchto případech je titul typicky zapisován zkratkou. Jméno v těchto případech nemůže být elidováno.
 +     * //profesor P. Novák// -- **jméno** je //P. Novák//
 +     * //prof. Novák// -- **jméno**
 +     * //princ z Walesu// -- nic (je to titul, takže to celé může být přidáno do **SemLex**u)
 +     * //Železná lady// -- přidat do **SemLex**u a anotovat
  
    * **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**.     * **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**. 
Line 45: Line 50:
      * //Svoboda, 777 578 975// -- **adresa**      * //Svoboda, 777 578 975// -- **adresa**
    * **biblio** je pouze bibliografický údaj, čili něco strukturovaného\\ jméno knihy (stejně jako jméno filmu) je jen **objekt** (zadny **biblio**)\\ Kde je hranice? //Božena Němcová, Babička, str. 143// budeme posuzovat jak? (Kol. Šidák dostal pokyn označit jako **biblio** a poznamenat na papír s připomínkami pro nás)    * **biblio** je pouze bibliografický údaj, čili něco strukturovaného\\ jméno knihy (stejně jako jméno filmu) je jen **objekt** (zadny **biblio**)\\ Kde je hranice? //Božena Němcová, Babička, str. 143// budeme posuzovat jak? (Kol. Šidák dostal pokyn označit jako **biblio** a poznamenat na papír s připomínkami pro nás)
-   * **X** slouží primárně pro nezařaditelné entity\\ prozatím také pro označování množství, neboť to dosud (TODO) nemá vlastní značku+   * **X** slouží primárně pro nezařaditelné entity\\ prozatím také pro označování množství, neboť to dosud (TODO) nemá vlastní značku;\\ pomocí **X** se také anotují např. šachové koncovky
      * //100 -- 200 metrů čtverečních// -- **X**, **objekt**      * //100 -- 200 metrů čtverečních// -- **X**, **objekt**
      * //10 m// -- nic nic      * //10 m// -- nic nic
      * //od 10 do 18 let// -- **X** je "//od 10 do 18//", "//let//" je nic      * //od 10 do 18 let// -- **X** je "//od 10 do 18//", "//let//" je nic
      * //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic      * //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic
 +     * //1. c7 Vd6+ 2. Kb5 Vd5+ 3. Kb4 Vd4+ 4. Kb3 Vd3+ 5. Kc2! Vd4! 6. c8V! Va4 7. Kb3// -- celé jako **X** jakožto šachová koncovka
 +   * **čas** anotujeme pouze v případě odpovědi na otázku "kdy", ne však na otázku "kolik"
 +     * //devět sekund// -- nic (kolik)
 +     * //pět let// -- nic (kolik)
 +     * //20 hodin// -- udává-li období => nic; udává-li večerní čas => 20 by byl **čas**, ale je to jednoslovné => také nic
 +     * //rok 1994// -- FIXME
 +     * //únor 2002// -- **čas**
 +     * //počátek září 1974// -- //"počátek"// neanotovat, zbytek je **čas**
 +     * //60. léta// -- v zásadě ano, ale 60 je jednoslovné => nic
 +     * //20. století// -- v zásadě ano, ale 20 je jednoslovné => nic
 +     * //20 hodin 15 minut// -- celé **čas**
 +     * //v 1. polovině 20. století// -- nic FIXME
 +     * //léta 1980/1// -- FIXME
  
 Všechna **apelativa** budeme považovat za součást entity. Hlavním důvodem je, že určují její typ. (Příklady: "ulice Politických vězňů", "náměstí Míru", "Staroměstské náměstí", "chrám sv. Víta", "kniha Babička".) Všechna **apelativa** budeme považovat za součást entity. Hlavním důvodem je, že určují její typ. (Příklady: "ulice Politických vězňů", "náměstí Míru", "Staroměstské náměstí", "chrám sv. Víta", "kniha Babička".)
 +  * //Univerzita Karlova v Praze// -- anotovat celé
 +  * //Washington, DC// -- celé
 +  * //Washington, USA// -- celé
 +  * //České Budějovice, Česká republika// -- celé
 +  * //Matematicko-fyzikální fakulta, Univerzita Karlova v Praze// -- celé
 +  * //Filozofická fakulta v Českých Budějovicích// -- zvlášť fakultu, zvlášť město
 +  * //kapela Doors// -- nic (anotovalo by se jen jednoslovné //Doors//)
 +  * //turnaj U.S. Open// -- FIXME
 +  * //chrám sv. Václava// -- FIXME
 +  * //Petr Novák// -- FIXME
 +  * //pan Novák// -- FIXME
 +
  
 === Frazémy === === Frazémy ===
Line 58: Line 88:
   * moskevský čas   * moskevský čas
   * antisemitská politika, rasistická politika   * antisemitská politika, rasistická politika
 +
 +Příklady nekomposicionálních frazémů:
 +  * vládní návrh
  
 Eliptické užití frazému se anotuje původním frazémem, tedy například "zrakově postižený" je anotováno slovníkovou položkou "zrakově postižený člověk". Eliptické užití frazému se anotuje původním frazémem, tedy například "zrakově postižený" je anotováno slovníkovou položkou "zrakově postižený člověk".
 +
 +Parafráze a variace typu //"Zloději nechodí po horách, ale po domácnostech"// se vloží jako nová položka do SemLexu s poznámkou "derived" v Glosse, která odkazuje na původní //"Neštěstí nechodí po horách, ale po lidech"//. (Pokud neexistuje, tak samozřejmě nejprve ho vyrobit, pak vyrobit odvozenou variantu s odkazem na něj.)
  
 ==== K nástroji sem-ann ==== ==== K nástroji sem-ann ====
Line 121: Line 156:
  
  * Další příklad neznačitelného souboru: ln95048_045.t.gz: lze značit jen 1/2 jména Truman Capote. (PŠ)  * Další příklad neznačitelného souboru: ln95048_045.t.gz: lze značit jen 1/2 jména Truman Capote. (PŠ)
- 
- 

[ Back to the navigation ] [ Back to the content ]