[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
external:lexemann:guidelines [2009/03/25 17:52]
bejcek ID je prefered
external:lexemann:guidelines [2009/06/29 11:34]
bejcek oprava "přímé úměry"
Line 2: Line 2:
  
 ===== Pravidla ===== ===== Pravidla =====
 +
 +
 +
 +
 +
 +
 +
  
  
Line 7: Line 14:
 ==== SemLex -- slovník víceslovných lexémů ==== ==== SemLex -- slovník víceslovných lexémů ====
   * Vyhledávání   * Vyhledávání
 +    - kliknout na Hledat, nebo stisknout S
 +    - vyplnit "Základní tvar", nebo "Lemmatizovaný tvar"
 +    - stisknout Enter (neklikat na Hledat)
 +    - Pomocí tlačítek "P" a "N" (či pomocí Ctrl-p a Ctrl-n) vybrat z více možností tu požadovanou, nebo pomocí roletkového menu Základní tvar (nefunguje vždy dobře, viz ticket #79)
   * Přidávání do slovníku   * Přidávání do slovníku
     * nejde-li něco udělat, poznamenat to do "glosa" a označit třemi hvězdičkami (tedy ''%%***%%poznámka'') k dalšímu ručnímu posouzení     * nejde-li něco udělat, poznamenat to do "glosa" a označit třemi hvězdičkami (tedy ''%%***%%poznámka'') k dalšímu ručnímu posouzení
Line 12: Line 23:
       * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''.       * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''.
     * Pokud přidáváte položku zřetelně odvozenou od jiné, která už ve slovníku je, poznamenejte to opět do glosy jako ''%%***%%derived from: <ID číslo původní položky>''\\ později bude vyhledání přidáno přimo do programu (např. "zrakově postižený člověk" je odvozený od "zdravotně postižený člověk").     * Pokud přidáváte položku zřetelně odvozenou od jiné, která už ve slovníku je, poznamenejte to opět do glosy jako ''%%***%%derived from: <ID číslo původní položky>''\\ později bude vyhledání přidáno přimo do programu (např. "zrakově postižený člověk" je odvozený od "zdravotně postižený člověk").
-    * Pro frazémy neurčitého slovního druhu (jako např. "laicky řečeno" -- asi částice?) a větné frazémy (jako přísloví) bude možno v příští verzi vybrat N/A. +    * Pro frazémy neurčitého slovního druhu (jako např. "laicky řečeno" -- asi částice?) a větné frazémy (jako přísloví) zvolte jako PoS hodnotu "N/A"
-    * Je-li potřeba položku smazat, použijte ''%%***%%remove'' a případně připište důvod (vytvořeno omylem, duplicitní heslo, není frazémem, ...)+    * Je-li potřeba položku smazat, použijte ''%%***%%remove'' do glosy a případně připište důvod (vytvořeno omylem, duplicitní heslo, není frazémem, ...) 
 +      * Existuje-li heslo jak v singuláru, tak v plurálu (a není pro to důvod), je potřeba tímto způsobem jedno z nich smazat. V případech jako "cenný papír", "obchodní vztah" se smaže plurál (který není ničím jiným než více kusy singuláru). V případě jako "sportovní potřeby" se singulár prakticky nepoužívá, smaže se tedy ten.
     * Synonymum -- založit jako novou položku ve slovníku, ideálně propojit se svým protějškem vyplněním okénka Synonyma (vepsat buď výraz, nebo ID synonymního protějšku v SemLexu). (Pokud anotátor ví, nebo později zjistí, že protějšek ve slovníku je, vyplní ID.)     * Synonymum -- založit jako novou položku ve slovníku, ideálně propojit se svým protějškem vyplněním okénka Synonyma (vepsat buď výraz, nebo ID synonymního protějšku v SemLexu). (Pokud anotátor ví, nebo později zjistí, že protějšek ve slovníku je, vyplní ID.)
 +    * Homonymie -- v případě, že je potřeba založit druhé heslo se stejným "Základním tvarem", připište na jeho konec ":2", například "přímá volba :2". (Přímá volba se týká volby například presidenta lidem a také telefonní volby jedním tlačítkem.)
 +    * Při vytváření lemmatisovaného tvaru od
 +      * negovaného slova platí, že se předpona "ne-" odtrhává od slova vždy -- krom případů, kdy vzniklé slovo buď neexistuje, nebo není protikladem. Existuje-li tedy jasná dvojice protikladů tvořených pomocí "ne-", pište prosím jako lemma vždy tvar bez předpony.\\ nejasný -> jasný\\ nepřijít -> přijít\\ ...\\ ale:\\ nenechavý -> nenechavý (nechavý neexistuje)\\ nemocný -> nemocný (mocný má úplně jiný význam)
 +      * výrazu s čárkou ("Ministerstvo školství**,** mládeže a tělovýchovy") se (zatím, pro konsistenci) čárka v lemmatisovaném tvaru také uvádí.
 +    * Vybrané příklady:
 +      * rozpočtová kapitola -- **ano** (ne každá kapitola lze říci takto s adjektivem)\\ Hypothesa: Existuje-li spojení Adj-Subst ("rozpočtová kapitola"), které lze obrátit na Subst-Subst.2 ("kapitola rozpočtu") s přibližně stejným významem, zatímco jiné podobné Subst-Subst.2 ("kapitola zákona") na adjektivní formu převést nelze (*"zákonná kapitola"), je to dobrý důvod pro anotaci. (Případné další příklady a také protipříklady možno psát sem.)
 +      * imobilní občan -- **ne** (je to jako "občan, který nemůže chodit")
 +      * veřejný objekt, bytový objekt -- **ano**
 +      * přímá úměra, nepřímá úměra -- **ano** (obojí, není to protiklad; lemma "přímý úměra")
 +      * schodišťová plošina, šikmá schodišťová plošina -- **ano** (obojí; "schodišťová plošina" (MWE) má často podobu "šikmé schodišťové plošiny" (MWE))
 +
  
 ==== Pojmenované entity ("NE") ==== ==== Pojmenované entity ("NE") ====
Line 32: Line 55:
      * //Železná lady// -- přidat do **SemLex**u a anotovat      * //Železná lady// -- přidat do **SemLex**u a anotovat
      * (víceslovné značky autorů pod článkem (pokud víceslovné existují) značit jako entity reprezentující jména osob)      * (víceslovné značky autorů pod článkem (pokud víceslovné existují) značit jako entity reprezentující jména osob)
 +   * **instituce**  
 +        * //Dental, s.r.o.// celé **instituce**, ovšem pouze když je to zkratkou (jako prof. Novák) 
 +        * __veletrhy__ a __soutěže__ jsou **instituce** (podle dokumentu "Skupiny pojmenovaných entit"
 +       
    * **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**.     * **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**. 
      * Spadají sem tedy:      * Spadají sem tedy:
        - kulturní artefakty (názvy knih, filmů, festivalů apod., předpisů, zákonů, ...)        - kulturní artefakty (názvy knih, filmů, festivalů apod., předpisů, zákonů, ...)
 +         * podtitul je součástí názvu (knihy)
        - názvy výrobků (Intel Pentium Pro)        - názvy výrobků (Intel Pentium Pro)
        - názvy měn (americký dolar)((tyto sem sice věcně spadají, ale jelikož jde o skupinu relativně omezenou, zavádějte je jako víceslovné lexémy do slovníku!))        - názvy měn (americký dolar)((tyto sem sice věcně spadají, ale jelikož jde o skupinu relativně omezenou, zavádějte je jako víceslovné lexémy do slovníku!))
Line 42: Line 69:
        - biologické názvy (brouk patří do "čeledi X, druhu Y, skupiny Z")        - biologické názvy (brouk patří do "čeledi X, druhu Y, skupiny Z")
      * //ČNB Na Příkopech// -- tím je myšlena budova, nikoli instituce, tudíž je to **objekt**      * //ČNB Na Příkopech// -- tím je myšlena budova, nikoli instituce, tudíž je to **objekt**
-   * **adresa**\\ problém hranice mezi **jméno**/**instituce** + **místo** a **adresa**\\ přesné pravidlo: **adresa musí obsahovat ulici a/nebo doplňující (ne-místní) údaj typu tel./PSČ/fax/e-mail**; jinak se anotuje každé zvlášť, tj. např. obvyklá forma //jméno a/nebo instituce, město// není dostatečně přesně určeno, aby to mohlo být považováno za adresu. Příklady:+     * //2654 m n.m.//, //v tisíci metrech nad mořem// -- //"m n.m."// (i psaný slovy) je **objekt** 
 +     * //př. K.// -- **objekt** 
 +     * //Kč/hod.//, //korun za hodinu// -- **objekt** 
 + 
 +* **adresa**\\ problém hranice mezi **jméno**/**instituce** + **místo** a **adresa**\\ přesné pravidlo: **adresa musí obsahovat ulici a/nebo doplňující (ne-místní) údaj typu tel./PSČ/fax/e-mail**; jinak se anotuje každé zvlášť, tj. např. obvyklá forma //jméno a/nebo instituce, město// není dostatečně přesně určeno, aby to mohlo být považováno za adresu. Příklady:
      * //Petr Novák, ÚFAL// -- **jméno**, **instituce**      * //Petr Novák, ÚFAL// -- **jméno**, **instituce**
      * //Worchester & sons, New Haven, Connecticut// -- **instituce**, **místo**      * //Worchester & sons, New Haven, Connecticut// -- **instituce**, **místo**
Line 64: Line 95:
      * //1. c7 Vd6+ 2. Kb5 Vd5+ 3. Kb4 Vd4+ 4. Kb3 Vd3+ 5. Kc2! Vd4! 6. c8V! Va4 7. Kb3// -- celé jako **X** jakožto šachová koncovka      * //1. c7 Vd6+ 2. Kb5 Vd5+ 3. Kb4 Vd4+ 4. Kb3 Vd3+ 5. Kc2! Vd4! 6. c8V! Va4 7. Kb3// -- celé jako **X** jakožto šachová koncovka
      * //pět milionů// -- **X**      * //pět milionů// -- **X**
-     * //3%//, //3-7%// -- obojí **X**+     * //3%//, //3-7%//, //pět a půl procenta// -- vše **X**
    * **čas** anotujeme pouze v případě odpovědi na otázku "kdy", ne však na otázku "kolik"    * **čas** anotujeme pouze v případě odpovědi na otázku "kdy", ne však na otázku "kolik"
      * //devět sekund// -- nic (kolik)      * //devět sekund// -- nic (kolik)
Line 75: Line 106:
      * //20. století// -- v zásadě ano, ale 20 je jednoslovné => nic      * //20. století// -- v zásadě ano, ale 20 je jednoslovné => nic
      * //20 hodin 15 minut// -- celé **čas**      * //20 hodin 15 minut// -- celé **čas**
-     * //v 1. polovině 20. století// -- nic FIXME +     * //v 1. polovině 20. století// -- nic 
-     * //léta 1980/1// -- FIXME+     * //léta 1968/9//, //v sezoně 1992/1993// -- obecně záleží na tom, zda je "1980/1" je tvořeno více t-uzly (lze ověřit označkováním jedničky a klávesou F5 si nechat obarvit, co vše to zasáhlo); v tomto případě jsou to tři uzly (lomítko má vlastní uzel), takže anotovat (//"léta"// a //"v sezoně"// se každopádně neanotuje)
      * //8:20// -- je representováno třemi t-uzly, takže anotovat, **čas**      * //8:20// -- je representováno třemi t-uzly, takže anotovat, **čas**
 +   * **foreign** se použije až v případě, že nelze zařadit jinam -- buď jinam nepatří, nebo anotátor neví, o jakou entitu jde 
 +     * //ad hoc// -- **foreign** 
 +     * //The Jungle Book// -- **objekt**, protože anotátor ví, že je to kniha
  
 Některá **apelativa** budeme považovat za součást entity, většinu však ne. Některá **apelativa** budeme považovat za součást entity, většinu však ne.
Line 100: Line 133:
  
 Pojmenovanou entitou **není** nic z následujících: Pojmenovanou entitou **není** nic z následujících:
-  * //americká centrální banka// -- je to sice označení jedné konkrétní banky, ale ne její název (stejně jako //nejhlubší bod na Zemi// je Mariánský příkop); //centrální banka// patří do !SemLexu+  * //americká centrální banka// -- je to sice označení jedné konkrétní banky, ale ne její název (stejně jako //nejhlubší bod na Zemi// je Mariánský příkop); //centrální banka// patří do SemLexu
   * //vládní návrh zákona o státní sociální podpoře// -- pokud to nebude název jednoho konkrétního zákona (pak by to mělo být s velkým 'Z'), není to žádná pojmenovaná entita; co se týče frazémů, je to povětšinou komposicionální, možná je //státní sociální podpora// termín (nutno pro každý konkrétní případ vyhledat, vygooglit), který by se měl uložit do SemLexu   * //vládní návrh zákona o státní sociální podpoře// -- pokud to nebude název jednoho konkrétního zákona (pak by to mělo být s velkým 'Z'), není to žádná pojmenovaná entita; co se týče frazémů, je to povětšinou komposicionální, možná je //státní sociální podpora// termín (nutno pro každý konkrétní případ vyhledat, vygooglit), který by se měl uložit do SemLexu
  

[ Back to the navigation ] [ Back to the content ]