Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
external:lexemann:guidelines [2008/08/25 14:57] bejcek další doplnění pravidel, časové NE |
external:lexemann:guidelines [2013/12/05 15:35] (current) bejcek oprava formátování |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| ====== Anotační instrukce ====== | ====== Anotační instrukce ====== | ||
| + | ===== Pravidla ===== | ||
| - | ==== Pravidla ==== | ||
| - | === SemLex -- slovník víceslovných lexémů === | + | |
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | ==== SemLex -- slovník víceslovných lexémů | ||
| * Vyhledávání | * Vyhledávání | ||
| + | - kliknout na Hledat, nebo stisknout S | ||
| + | - vyplnit " | ||
| + | - stisknout Enter (neklikat na Hledat) | ||
| + | - Pomocí tlačítek " | ||
| * Přidávání do slovníku | * Přidávání do slovníku | ||
| * nejde-li něco udělat, poznamenat to do " | * nejde-li něco udělat, poznamenat to do " | ||
| Line 13: | Line 26: | ||
| * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ '' | * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ '' | ||
| * Pokud přidáváte položku zřetelně odvozenou od jiné, která už ve slovníku je, poznamenejte to opět do glosy jako '' | * Pokud přidáváte položku zřetelně odvozenou od jiné, která už ve slovníku je, poznamenejte to opět do glosy jako '' | ||
| - | * Pro frazémy neurčitého slovního druhu (jako např. " | + | * Pro frazémy neurčitého slovního druhu (jako např. " |
| - | * Je-li potřeba položku smazat, použijte '' | + | * Je-li potřeba položku smazat, použijte '' |
| + | * Existuje-li heslo jak v singuláru, tak v plurálu (a není pro to důvod), je potřeba tímto způsobem jedno z nich smazat. V případech jako " | ||
| + | * Synonymum -- založit jako novou položku ve slovníku, ideálně propojit se svým protějškem vyplněním okénka Synonyma (vepsat buď výraz, nebo ID synonymního protějšku v SemLexu). (Pokud anotátor ví, nebo později zjistí, že protějšek ve slovníku je, vyplní ID.) | ||
| + | * Homonymie -- v případě, že je potřeba založit druhé heslo se stejným " | ||
| + | * Při vytváření lemmatisovaného tvaru od | ||
| + | * negovaného slova platí, že se předpona " | ||
| + | * výrazu s čárkou (" | ||
| + | * Vybrané příklady: | ||
| + | * rozpočtová kapitola -- **ano** (ne každá kapitola lze říci takto s adjektivem)\\ Hypothesa: < | ||
| + | * diplomatická čtvrť, ekonomický náměstek, měnový výbor -- ano | ||
| + | * marketingová metoda, marketingová smlouva -- asi ne | ||
| + | * Grepl v Příruční mluvnici mluví o tom, že adjektivní spojení zastírá význam a jako příklad uvádí oblíbené knedlíky (bramborové vs. švestkové). To tedy svědčí pro to, že adjektivní varianta by se měla anotovat, neboť má zastřenější význam. | ||
| + | * imobilní občan -- **ne** (je to jako " | ||
| + | * veřejný objekt, bytový objekt -- **ano** | ||
| + | * přímá úměra, nepřímá úměra -- **ano** (obojí, není to protiklad; lemma " | ||
| + | * schodišťová plošina, šikmá schodišťová plošina -- **ano** (obojí; " | ||
| + | * Položky ze SČFI nemají vyplněn PoS. Doplňujte ho, když takové slovníkové heslo použijete. | ||
| - | === Pojmenované entity (" | + | ==== Pojmenované entity (" |
| **v této fázi se zabýváme jen striktně víceslovnými NE:** tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu. Z toho důvodu neanotujeme ani jednoslovné zkratky víceslovných NE (např. ČSSD). (Pozor, KDU-ČSL má tři tektogramatické uzly, proto je (a všechny ostatní zkratky s pomlčkou, spojovníkem, | **v této fázi se zabýváme jen striktně víceslovnými NE:** tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu. Z toho důvodu neanotujeme ani jednoslovné zkratky víceslovných NE (např. ČSSD). (Pozor, KDU-ČSL má tři tektogramatické uzly, proto je (a všechny ostatní zkratky s pomlčkou, spojovníkem, | ||
| Line 31: | Line 61: | ||
| * //princ z Walesu// -- nic (je to titul, takže to celé může být přidáno do **SemLex**u) | * //princ z Walesu// -- nic (je to titul, takže to celé může být přidáno do **SemLex**u) | ||
| * //Železná lady// -- přidat do **SemLex**u a anotovat | * //Železná lady// -- přidat do **SemLex**u a anotovat | ||
| + | * (víceslovné značky autorů pod článkem (pokud víceslovné existují) značit jako entity reprezentující jména osob) | ||
| + | * **instituce** | ||
| + | * //Dental, s.r.o.// celé **instituce**, | ||
| + | * __veletrhy__ a __soutěže__ jsou **instituce** (podle dokumentu " | ||
| * **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**. | * **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**. | ||
| * Spadají sem tedy: | * Spadají sem tedy: | ||
| - kulturní artefakty (názvy knih, filmů, festivalů apod., předpisů, zákonů, ...) | - kulturní artefakty (názvy knih, filmů, festivalů apod., předpisů, zákonů, ...) | ||
| + | * podtitul je součástí názvu (knihy) | ||
| - názvy výrobků (Intel Pentium Pro) | - názvy výrobků (Intel Pentium Pro) | ||
| - názvy měn (americký dolar)((tyto sem sice věcně spadají, ale jelikož jde o skupinu relativně omezenou, zavádějte je jako víceslovné lexémy do slovníku!)) | - názvy měn (americký dolar)((tyto sem sice věcně spadají, ale jelikož jde o skupinu relativně omezenou, zavádějte je jako víceslovné lexémy do slovníku!)) | ||
| Line 41: | Line 76: | ||
| - biologické názvy (brouk patří do " | - biologické názvy (brouk patří do " | ||
| * //ČNB Na Příkopech// | * //ČNB Na Příkopech// | ||
| + | * //2654 m n.m.//, //v tisíci metrech nad mořem// -- //"m n.m."// | ||
| + | * //př. K.// -- **objekt** | ||
| + | * // | ||
| + | |||
| * **adresa**\\ problém hranice mezi **jméno**/ | * **adresa**\\ problém hranice mezi **jméno**/ | ||
| * //Petr Novák, ÚFAL// -- **jméno**, **instituce** | * //Petr Novák, ÚFAL// -- **jméno**, **instituce** | ||
| Line 49: | Line 88: | ||
| * //Petr Novák, ÚFAL, Malostranské náměstí 25// -- **adresa** | * //Petr Novák, ÚFAL, Malostranské náměstí 25// -- **adresa** | ||
| * //Svoboda, 777 578 975// -- **adresa** | * //Svoboda, 777 578 975// -- **adresa** | ||
| + | * //kontakt: 777 578 975// -- v tomto případě je to celé **adresa**, neboť " | ||
| + | * //kontakt: 777 578 975, e-mail pepa@ufal.cz, | ||
| + | * //č.ú.: 4328-483859392054/ | ||
| + | * //jdu do galerie Václava Špály// -- **místo** | ||
| + | * //Galerie Václava Špály koupila obraz// -- **instituce**, | ||
| + | |||
| * **biblio** je pouze bibliografický údaj, čili něco strukturovaného\\ jméno knihy (stejně jako jméno filmu) je jen **objekt** (zadny **biblio**)\\ Kde je hranice? //Božena Němcová, Babička, str. 143// budeme posuzovat jak? (Kol. Šidák dostal pokyn označit jako **biblio** a poznamenat na papír s připomínkami pro nás) | * **biblio** je pouze bibliografický údaj, čili něco strukturovaného\\ jméno knihy (stejně jako jméno filmu) je jen **objekt** (zadny **biblio**)\\ Kde je hranice? //Božena Němcová, Babička, str. 143// budeme posuzovat jak? (Kol. Šidák dostal pokyn označit jako **biblio** a poznamenat na papír s připomínkami pro nás) | ||
| * **X** slouží primárně pro nezařaditelné entity\\ prozatím také pro označování množství, neboť to dosud (TODO) nemá vlastní značku;\\ pomocí **X** se také anotují např. šachové koncovky | * **X** slouží primárně pro nezařaditelné entity\\ prozatím také pro označování množství, neboť to dosud (TODO) nemá vlastní značku;\\ pomocí **X** se také anotují např. šachové koncovky | ||
| Line 56: | Line 101: | ||
| * //mezi sedadly 30 a 40// -- **X** je "// | * //mezi sedadly 30 a 40// -- **X** je "// | ||
| * //1. c7 Vd6+ 2. Kb5 Vd5+ 3. Kb4 Vd4+ 4. Kb3 Vd3+ 5. Kc2! Vd4! 6. c8V! Va4 7. Kb3// -- celé jako **X** jakožto šachová koncovka | * //1. c7 Vd6+ 2. Kb5 Vd5+ 3. Kb4 Vd4+ 4. Kb3 Vd3+ 5. Kc2! Vd4! 6. c8V! Va4 7. Kb3// -- celé jako **X** jakožto šachová koncovka | ||
| + | * //pět milionů// -- **X** | ||
| + | * //3%//, //3-7%//, //pět a půl procenta// -- vše **X** | ||
| * **čas** anotujeme pouze v případě odpovědi na otázku " | * **čas** anotujeme pouze v případě odpovědi na otázku " | ||
| * //devět sekund// -- nic (kolik) | * //devět sekund// -- nic (kolik) | ||
| * //pět let// -- nic (kolik) | * //pět let// -- nic (kolik) | ||
| * //20 hodin// -- udává-li období => nic; udává-li večerní čas => 20 by byl **čas**, ale je to jednoslovné => také nic | * //20 hodin// -- udává-li období => nic; udává-li večerní čas => 20 by byl **čas**, ale je to jednoslovné => také nic | ||
| - | * //rok 1994// -- FIXME | + | * //rok 1994// -- nic |
| * //únor 2002// -- **čas** | * //únor 2002// -- **čas** | ||
| * //počátek září 1974// -- //" | * //počátek září 1974// -- //" | ||
| Line 66: | Line 113: | ||
| * //20. století// -- v zásadě ano, ale 20 je jednoslovné => nic | * //20. století// -- v zásadě ano, ale 20 je jednoslovné => nic | ||
| * //20 hodin 15 minut// -- celé **čas** | * //20 hodin 15 minut// -- celé **čas** | ||
| - | * //v 1. polovině 20. století// -- nic FIXME | + | * //v 1. polovině 20. století// -- nic |
| - | * //léta 1980/1// -- FIXME | + | * // |
| + | * //8:20// -- je representováno třemi t-uzly, takže anotovat, **čas** | ||
| + | * //od září do dubna// -- nic, není to absolutní udání času (které září) | ||
| + | * **foreign** se použije až v případě, že nelze zařadit jinam -- buď jinam nepatří, nebo anotátor neví, o jakou entitu jde | ||
| + | * //ad hoc// -- **foreign** | ||
| + | * //The Jungle Book// -- **objekt**, protože anotátor ví, že je to kniha | ||
| - | Všechna | + | Některá |
| + | Apelativa, která budeme anotovat spolu s entitou, jsou vesměs geografické výrazy, vždy tvoří součást názvu (vynechání lze pak považovat spíše za elipsu), | ||
| + | Příklady: "ulice Politických vězňů", | ||
| + | naopak neanotujeme apelativa | ||
| * // | * // | ||
| * // | * // | ||
| Line 77: | Line 132: | ||
| * // | * // | ||
| * //kapela Doors// -- nic (anotovalo by se jen jednoslovné //Doors//) | * //kapela Doors// -- nic (anotovalo by se jen jednoslovné //Doors//) | ||
| - | * //turnaj U.S. Open// -- FIXME | + | * //turnaj U.S. Open// -- jen U.S. Open jako objekt |
| - | * //chrám sv. Václava// -- FIXME | + | * //chrám sv. Václava// -- celé |
| - | * //Petr Novák// -- FIXME | + | * //pan Novák// -- nic |
| - | * //pan Novák// -- FIXME | + | * //ulice pplk. Sochora// -- celé |
| + | * // | ||
| + | * //zákon o daních// -- celé (pokud je to název jednoho konkrétního zákona) | ||
| + | * //podle zákona 1456/18, Sb.// -- bez //" | ||
| + | Pojmenovanou entitou **není** nic z následujících: | ||
| + | * //americká centrální banka// -- je to sice označení jedné konkrétní banky, ale ne její název (stejně jako // | ||
| + | * //vládní návrh zákona o státní sociální podpoře// -- pokud to nebude název jednoho konkrétního zákona (pak by to mělo být s velkým ' | ||
| - | === Frazémy === | ||
| - | Příklady toho, co už není frazém: | + | |
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | ==== Frazémy ==== | ||
| + | |||
| + | Vždy anotovat **doslova** přesně tou položkou slovníku, která je použita v textu. | ||
| + | * tedy " | ||
| + | * vyjímku tvoří: | ||
| + | * zdrobněliny: | ||
| + | * přechýlení: | ||
| + | * elipsa: viz níže | ||
| + | * pravopisné varianty: " | ||
| + | * vidové dvojice: " | ||
| + | * překlep/ | ||
| + | * zkratky: " | ||
| + | * (Pokud jsem na něco zapomněl, připište to, nebo se zeptejte. --EB) | ||
| + | \\ | ||
| + | |||
| + | Příklady toho, co už **není frazém**: | ||
| * moskevský čas | * moskevský čas | ||
| * antisemitská politika, rasistická politika | * antisemitská politika, rasistická politika | ||
| + | * hlavní město Rakouska (jen " | ||
| + | * poslední den (ze SČFI -- zrušit) | ||
| + | * principy trhu, tržní principy | ||
| + | * // | ||
| + | \\ | ||
| + | |||
| + | Příklady **frazémů**: | ||
| + | * velkosériová výroba -- je to sporné, dohodli jsme se, že ano | ||
| + | * sedmá třída | ||
| + | * ?? speciální efekt? | ||
| + | * zapsat se zlatým písmem | ||
| + | * na sklad -- adverbium | ||
| + | * z tohoto mraku pršet nemusí (PoS: N/A) (případně jako %%***%%derived, | ||
| + | * " | ||
| + | \\ | ||
| - | Příklady nekomposicionálních frazémů: | + | Příklady |
| * vládní návrh | * vládní návrh | ||
| + | \\ | ||
| - | Eliptické užití frazému se anotuje původním frazémem, tedy například " | + | **Eliptické** užití frazému se anotuje původním frazémem, tedy například " |
| + | * pokud po elipse zbyde jedno slovo, neanotuje se; (tj. článek o " | ||
| + | * výjimkou je // | ||
| + | * " | ||
| + | \\ | ||
| - | Parafráze a variace typu //" | + | **Parafráze a variace** typu //" |
| - | ==== K nástroji sem-ann ==== | + | **Citáty** a ustálené věty typu //" |
| + | |||
| + | V **idiomatických, | ||
| + | |||
| + | === problematické === | ||
| + | |||
| + | **zákony: | ||
| + | Problem je, jak (a ktery) zakon anotovat. Vubec, jako NE, SemLexem. | ||
| + | |||
| + | * Pridrzet se pravidla o objektech [[guidelines# | ||
| + | * V druhe rade se ridit poznámkou slecny Stastne, | ||
| + | * Pokud ani jedno neplati, nevidim nutnost to anotovat. (Leda byste to chtely mit ve slovníku, stejne jako ostatni zakony, ktere uz v nem jsou.) V techto pripadech bych to nechal na vasem uvazeni. Anotujte konsistentne a pripadne (casem) zformulujte pravidlo, kterym se ridite. | ||
| + | |||
| + | |||
| + | **trestné činy:** Spojeni " | ||
| + | Anotujte tedy " | ||
| + | * " | ||
| + | * " | ||
| + | * " | ||
| + | * " | ||
| + | |||
| + | ===== K nástroji sem-ann | ||
| * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. | * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. | ||
| Line 116: | Line 243: | ||
| - | ==== Dotazy, nejasnosti === | + | |
| + | ===== Dotazy, nejasnosti | ||
| Máme několik dalších nejasností, | Máme několik dalších nejasností, | ||
| * Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/ | * Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/ | ||
| - obojí je obvyklé, ale když alespoň jedno neplatí, neznamená to ještě, že o frazém v nějakém smyslu nejde. | - obojí je obvyklé, ale když alespoň jedno neplatí, neznamená to ještě, že o frazém v nějakém smyslu nejde. | ||
| - | - Máme dost různých kreativních užití ("ne Rudé, ale Šedé právo"; | + | - <del>Máme dost různých kreativních užití ("ne Rudé, ale Šedé právo"; |
| - // | - // | ||
| - | * Apelativa jako " | + | * <del>Apelativa jako " |
| - | - ano --ps | + | - <del>ano --ps</ |
| - | * slovo " | + | * <del>slovo " |
| - | - souhlas. --ps | + | - <del>souhlas. --ps</ |
| - | * NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, | + | * <del>NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, |
| - | - ano, přesně tak si to představuji. --ps | + | - <del>ano, přesně tak si to představuji. --ps</ |
| - | * devět sekund, pět let, 20 hodin – jde o čas ?(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat? | + | * <del>devět sekund, pět let, 20 hodin – jde o čas ?</ |
| - | * Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů (" | + | |
| - // | - // | ||
| - // | - // | ||
| - | * (víceslovné značky autorů pod článkem (pokud víceslovné existují) značit jako entity reprezentující jména osob) | ||
| * Případy jako //první vlna//, //druhá vlna// aj. kazdý značíme jako frazém, těch vln asi není až tak hodně, max. 10. | * Případy jako //první vlna//, //druhá vlna// aj. kazdý značíme jako frazém, těch vln asi není až tak hodně, max. 10. | ||
| * Ve frazémech typu //přešla mne chut'// | * Ve frazémech typu //přešla mne chut'// | ||
| Line 140: | Line 267: | ||
| ==PŠ+PV== | ==PŠ+PV== | ||
| - | |||
| - | Ještě technický problém: občas některé lexémy naprosto nevysvětlitelně nelze označit a program hlásí, že " | ||
| - | - potřebujeme přesný údaj, kde se to stalo. Jinak chybu nemůžeme opravit. (--ps) | ||
| - | |||
| - | * první příklad, se kterým jsem se dnes setkal: v souboru | ||
| - | * další příklad: soubor ln95047_137, | ||
| - | * dalsi priklady souboru, kdy je posledni veta zdvojena a nektere vyrazy v ni nelze anotovat: davka 14/soubor 18; 14/ | ||
| - | 14/50; 14/72; 15/22, 23 (skoro celé nelze anotovat); 16/51; 16/74; 16/134 (pv) | ||
| Další otázky: | Další otázky: | ||
| 1) jak znacit vyrazy jako: vládní návrh zákona o sociální podpoře | 1) jak znacit vyrazy jako: vládní návrh zákona o sociální podpoře | ||
| jmena zakonu obecne znacim jako objekty, ale tady se zaroven krizi: vladni navrh, navrh zakona, zakon o socialni podpore a socialni podpora - je v takovych pripadech lepsi zadat cele heslo do slovniku s tim, ze bude slovnik velmi rychle narustat, nebo vyraz rozkouskovat a v tom pripade jak? | jmena zakonu obecne znacim jako objekty, ale tady se zaroven krizi: vladni navrh, navrh zakona, zakon o socialni podpore a socialni podpora - je v takovych pripadech lepsi zadat cele heslo do slovniku s tim, ze bude slovnik velmi rychle narustat, nebo vyraz rozkouskovat a v tom pripade jak? | ||
| - | 2) jak anotovat fakulty a názvy univerzit, obory apod? | + | 2) jak anotovat |
| - | 3) jak znacit parafraze a nekonecne mnozstvi variaci typu " | + | 3) <del>jak znacit parafraze a nekonecne mnozstvi variaci typu " |
| + | |||
| + | ==otázky E. Šťastné (únor 2009)== | ||
| + | únor 2009; odpovědi P. Straňák + P. Šidák | ||
| + | |||
| + | - Jaká je řekněme lingvistická definice toho, co mám pojmenovávat? | ||
| + | * čistě lingvistickou definici nelze dát, neboť se pohybujeme i mimo pole lingvistiky (např. kategorie " | ||
| + | - jde o funkci nebo lexikální jednotku? - př: " | ||
| + | * v tomto případě je nutné lišit význam " | ||
| + | - apelativa jsou součástí NE pouze u místních názvů, nebo všude? P. Šidák říká jen u místních názvů, v Instrukcích jsou i příklady typu "kniha Babička" | ||
| + | * výrazy, jejichž součástí je proprium a apelativum. Tento problém je obtížný, záleží na (diskrétní) míře kolokace. Nicméně shodli jsme se na obecném pravidle, že tyto výrazy se značit NEBUDOU (substituční zkouška: lze říci nejen "kniha Babička", | ||
| + | - co národy? " | ||
| + | * sudetští Němci a bosenští Srbové jendoznačně ano. Nelze ovšem dát čistě lingvistické zdůvodnění. Shodli jsme se na tom, že tyto termíny mají jakýsi příznak (hisotriografického, | ||
| + | - zkratky se neanotují, pokud jsou " | ||
| + | * bod " | ||
| - | * Další příklad neznačitelného souboru: ln95048_045.t.gz: lze značit jen 1/2 jména Truman Capote. (PŠ) | + | [[oldlines|Starší pravidla]] (používaná do 23. 7. 2008). |
