[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
external:lexemann:guidelines [2007/02/06 11:32]
stranak
external:lexemann:guidelines [2009/10/30 13:55]
bejcek morfologická derivace frazému
Line 1: Line 1:
 ====== Anotační instrukce ====== ====== Anotační instrukce ======
  
 +===== Pravidla =====
  
-==== Pravidla ==== 
  
-== SemLex -- slovník víceslovných lexémů ==+ 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== SemLex -- slovník víceslovných lexémů ====
   * Vyhledávání   * Vyhledávání
-    * je nutno psát tvary lemmatisované;případě hledání více slov současně spojovat podtržítkem (např. "čistý_ruka")+    - kliknout na Hledat, nebo stisknout S 
 +    - vyplnit "Základní tvar", nebo "Lemmatizovaný tvar" 
 +    - stisknout Enter (neklikat na Hledat) 
 +    - Pomocí tlačítek "P" a "N" (či pomocí Ctrl-a Ctrl-n) vybrat z více možností tu požadovanou, nebo pomocí roletkového menu Základní tvar (nefunguje vždy dobře, viz ticket #79)
   * Přidávání do slovníku   * Přidávání do slovníku
     * nejde-li něco udělat, poznamenat to do "glosa" a označit třemi hvězdičkami (tedy ''%%***%%poznámka'') k dalšímu ručnímu posouzení     * nejde-li něco udělat, poznamenat to do "glosa" a označit třemi hvězdičkami (tedy ''%%***%%poznámka'') k dalšímu ručnímu posouzení
     * je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci     * je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci
       * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''.       * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''.
 +    * Pokud přidáváte položku zřetelně odvozenou od jiné, která už ve slovníku je, poznamenejte to opět do glosy jako ''%%***%%derived from: <ID číslo původní položky>''\\ později bude vyhledání přidáno přimo do programu (např. "zrakově postižený člověk" je odvozený od "zdravotně postižený člověk").
 +    * Pro frazémy neurčitého slovního druhu (jako např. "laicky řečeno" -- asi částice?) a větné frazémy (jako přísloví) zvolte jako PoS hodnotu "N/A".
 +    * Je-li potřeba položku smazat, použijte ''%%***%%remove'' do glosy a případně připište důvod (vytvořeno omylem, duplicitní heslo, není frazémem, ...)
 +      * Existuje-li heslo jak v singuláru, tak v plurálu (a není pro to důvod), je potřeba tímto způsobem jedno z nich smazat. V případech jako "cenný papír", "obchodní vztah" se smaže plurál (který není ničím jiným než více kusy singuláru). V případě jako "sportovní potřeby" se singulár prakticky nepoužívá, smaže se tedy ten.
 +    * Synonymum -- založit jako novou položku ve slovníku, ideálně propojit se svým protějškem vyplněním okénka Synonyma (vepsat buď výraz, nebo ID synonymního protějšku v SemLexu). (Pokud anotátor ví, nebo později zjistí, že protějšek ve slovníku je, vyplní ID.)
 +    * Homonymie -- v případě, že je potřeba založit druhé heslo se stejným "Základním tvarem", připište na jeho konec ":2", například "přímá volba :2". (Přímá volba se týká volby například presidenta lidem a také telefonní volby jedním tlačítkem.)
 +    * Při vytváření lemmatisovaného tvaru od
 +      * negovaného slova platí, že se předpona "ne-" odtrhává od slova vždy -- krom případů, kdy vzniklé slovo buď neexistuje, nebo není protikladem. Existuje-li tedy jasná dvojice protikladů tvořených pomocí "ne-", pište prosím jako lemma vždy tvar bez předpony.\\ nejasný -> jasný\\ nepřijít -> přijít\\ ...\\ ale:\\ nenechavý -> nenechavý (nechavý neexistuje)\\ nemocný -> nemocný (mocný má úplně jiný význam)
 +      * výrazu s čárkou ("Ministerstvo školství**,** mládeže a tělovýchovy") se (zatím, pro konsistenci) čárka v lemmatisovaném tvaru také uvádí.
 +    * Vybrané příklady:
 +      * rozpočtová kapitola -- **ano** (ne každá kapitola lze říci takto s adjektivem)\\ Hypothesa: <html>Existuje-li spojení X<font size="-5">Adj</font>-Y<font size="-5">Subst</font> ("rozpočtová kapitola"), které lze obrátit na Y<font size="-5">Subst</font>-X<font size="-5">Subst</font> ("kapitola rozpočtu") s přibližně stejným významem, zatímco jiné podobné A<font size="-5">Subst</font>-B<font size="-5">Subst</font> ("kapitola zákona") na adjektivní formu převést nelze (*"zákonná kapitola"), je to dobrý důvod pro anotaci. (Případné další příklady a také protipříklady možno psát sem.)</html>
 +        * diplomatická čtvrť, ekonomický náměstek, měnový výbor -- ano
 +        * marketingová metoda, marketingová smlouva -- asi ne
 +        * Grepl v Příruční mluvnici mluví o tom, že adjektivní spojení zastírá význam a jako příklad uvádí oblíbené knedlíky (bramborové vs. švestkové). To tedy svědčí pro to, že adjektivní varianta by se měla anotovat, neboť má zastřenější význam.
 +      * imobilní občan -- **ne** (je to jako "občan, který nemůže chodit")
 +      * veřejný objekt, bytový objekt -- **ano**
 +      * přímá úměra, nepřímá úměra -- **ano** (obojí, není to protiklad; lemma "přímý úměra")
 +      * schodišťová plošina, šikmá schodišťová plošina -- **ano** (obojí; "schodišťová plošina" (MWE) má často podobu "šikmé schodišťové plošiny" (MWE))
 +    * Položky ze SČFI nemají vyplněn PoS. Doplňujte ho, když takové slovníkové heslo použijete.
  
-== Pojmenované entity == + 
-  **v této fázi se zabýváme jen striktně víceslovnými NE: tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu.** +==== Pojmenované entity ("NE") ==== 
---- +**v této fázi se zabýváme jen striktně víceslovnými NE:** tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu. Z toho důvodu neanotujeme ani jednoslovné zkratky víceslovných NE (např. ČSSD). (Pozor, KDU-ČSL má tři tektogramatické uzly, proto je (a všechny ostatní zkratky s pomlčkou, spojovníkem, či mezerou ("MFF UK")) chceme **anotovat** již v této fázi jako instituce). 
-   * TODO Sjednotit (zde i ve sem-ann-uanglické a české názvyTřeba person pro jméno žáby je poněkud matoucí(podle mne není, jde o personifikaci --ps)+ 
 +Vnitřní struktura nás (prozatímnezajímá, takže například "Astronomický ústav Univerzity Karlovy v Praze" anotujeme jako jednu jedinou instituci. 
 + 
 +<html><font color="red">V současné podobě jsou instrukce (zejména v oblasti apelativ) někdy až protichůdnéNeznajíce dobré řešení, zveřejňujeme je alespoň tak a řešení zkusíme zkonsultovat s prací OKrůzy.</font></html> 
 + 
 +----
  
    * **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly    * **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly
      * v případech jako "prezident V. Klaus" nebude 'prezident' anotován jako součást jména. Výraz je totiž do značné míry samostatný, jméno může být i vynecháno. Titul jako součást jména anotujeme jen v případech, kdy nemá samostatný význam, kdy o danou funkci v textu vůbec nejde. V těchto případech je titul typicky zapisován zkratkou. Jméno v těchto případech nemůže být elidováno.      * v případech jako "prezident V. Klaus" nebude 'prezident' anotován jako součást jména. Výraz je totiž do značné míry samostatný, jméno může být i vynecháno. Titul jako součást jména anotujeme jen v případech, kdy nemá samostatný význam, kdy o danou funkci v textu vůbec nejde. V těchto případech je titul typicky zapisován zkratkou. Jméno v těchto případech nemůže být elidováno.
 +     * //profesor P. Novák// -- **jméno** je //P. Novák// 
 +     * //prof. Novák// -- **jméno** 
 +     * //princ z Walesu// -- nic (je to titul, takže to celé může být přidáno do **SemLex**u) 
 +     * //Železná lady// -- přidat do **SemLex**u a anotovat 
 +     * (víceslovné značky autorů pod článkem (pokud víceslovné existují) značit jako entity reprezentující jména osob) 
 +   * **instituce**  
 +        * //Dental, s.r.o.// celé **instituce**, ovšem pouze když je to zkratkou (jako prof. Novák) 
 +        * __veletrhy__ a __soutěže__ jsou **instituce** (podle dokumentu "Skupiny pojmenovaných entit"
 +       
    * **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**.     * **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**. 
      * Spadají sem tedy:      * Spadají sem tedy:
        - kulturní artefakty (názvy knih, filmů, festivalů apod., předpisů, zákonů, ...)        - kulturní artefakty (názvy knih, filmů, festivalů apod., předpisů, zákonů, ...)
 +         * podtitul je součástí názvu (knihy)
        - názvy výrobků (Intel Pentium Pro)        - názvy výrobků (Intel Pentium Pro)
        - názvy měn (americký dolar)((tyto sem sice věcně spadají, ale jelikož jde o skupinu relativně omezenou, zavádějte je jako víceslovné lexémy do slovníku!))        - názvy měn (americký dolar)((tyto sem sice věcně spadají, ale jelikož jde o skupinu relativně omezenou, zavádějte je jako víceslovné lexémy do slovníku!))
Line 29: Line 76:
        - biologické názvy (brouk patří do "čeledi X, druhu Y, skupiny Z")        - biologické názvy (brouk patří do "čeledi X, druhu Y, skupiny Z")
      * //ČNB Na Příkopech// -- tím je myšlena budova, nikoli instituce, tudíž je to **objekt**      * //ČNB Na Příkopech// -- tím je myšlena budova, nikoli instituce, tudíž je to **objekt**
-   * **adresa**\\ problém hranice mezi **jméno**/**instituce** + **místo** a **adresa**\\ přesné pravidlo: **adresa musí obsahovat ulici a/nebo doplňující (ne-místní) údaj typu tel./PSČ/fax/e-mail**; jinak se anotuje každé zvlášť, tj. např. obvyklá forma //jméno a/nebo instituce, město// není dostatečně přesně určeno, aby to mohlo být považováno za adresu. Příklady:+     * //2654 m n.m.//, //v tisíci metrech nad mořem// -- //"m n.m."// (i psaný slovy) je **objekt** 
 +     * //př. K.// -- **objekt** 
 +     * //Kč/hod.//, //korun za hodinu// -- **objekt** 
 + 
 +* **adresa**\\ problém hranice mezi **jméno**/**instituce** + **místo** a **adresa**\\ přesné pravidlo: **adresa musí obsahovat ulici a/nebo doplňující (ne-místní) údaj typu tel./PSČ/fax/e-mail**; jinak se anotuje každé zvlášť, tj. např. obvyklá forma //jméno a/nebo instituce, město// není dostatečně přesně určeno, aby to mohlo být považováno za adresu. Příklady:
      * //Petr Novák, ÚFAL// -- **jméno**, **instituce**      * //Petr Novák, ÚFAL// -- **jméno**, **instituce**
      * //Worchester & sons, New Haven, Connecticut// -- **instituce**, **místo**      * //Worchester & sons, New Haven, Connecticut// -- **instituce**, **místo**
Line 37: Line 88:
      * //Petr Novák, ÚFAL, Malostranské náměstí 25// -- **adresa**      * //Petr Novák, ÚFAL, Malostranské náměstí 25// -- **adresa**
      * //Svoboda, 777 578 975// -- **adresa**      * //Svoboda, 777 578 975// -- **adresa**
 +     * //kontakt: 777 578 975// -- v tomto případě je to celé **adresa**, neboť "kontakt" zde vlastně znamená "telefon"
 +     * //kontakt: 777 578 975, e-mail pepa@ufal.cz, fax: 222333456// -- bez "kontakt:" je to **adresa**
 +     * //č.ú.: 4328-483859392054/0303// -- celé **adresa**
 +     * //jdu do galerie Václava Špály// -- **místo**
 +     * //Galerie Václava Špály koupila obraz// -- **instituce**, protože je to personifikace
 +
    * **biblio** je pouze bibliografický údaj, čili něco strukturovaného\\ jméno knihy (stejně jako jméno filmu) je jen **objekt** (zadny **biblio**)\\ Kde je hranice? //Božena Němcová, Babička, str. 143// budeme posuzovat jak? (Kol. Šidák dostal pokyn označit jako **biblio** a poznamenat na papír s připomínkami pro nás)    * **biblio** je pouze bibliografický údaj, čili něco strukturovaného\\ jméno knihy (stejně jako jméno filmu) je jen **objekt** (zadny **biblio**)\\ Kde je hranice? //Božena Němcová, Babička, str. 143// budeme posuzovat jak? (Kol. Šidák dostal pokyn označit jako **biblio** a poznamenat na papír s připomínkami pro nás)
-   * **X** slouží primárně pro nezařaditelné entity\\ prozatím také pro označování množství, neboť to dosud (TODO) nemá vlastní značku+   * **X** slouží primárně pro nezařaditelné entity\\ prozatím také pro označování množství, neboť to dosud (TODO) nemá vlastní značku;\\ pomocí **X** se také anotují např. šachové koncovky
      * //100 -- 200 metrů čtverečních// -- **X**, **objekt**      * //100 -- 200 metrů čtverečních// -- **X**, **objekt**
      * //10 m// -- nic nic      * //10 m// -- nic nic
      * //od 10 do 18 let// -- **X** je "//od 10 do 18//", "//let//" je nic      * //od 10 do 18 let// -- **X** je "//od 10 do 18//", "//let//" je nic
      * //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic      * //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic
 +     * //1. c7 Vd6+ 2. Kb5 Vd5+ 3. Kb4 Vd4+ 4. Kb3 Vd3+ 5. Kc2! Vd4! 6. c8V! Va4 7. Kb3// -- celé jako **X** jakožto šachová koncovka
 +     * //pět milionů// -- **X**
 +     * //3%//, //3-7%//, //pět a půl procenta// -- vše **X**
 +   * **čas** anotujeme pouze v případě odpovědi na otázku "kdy", ne však na otázku "kolik"
 +     * //devět sekund// -- nic (kolik)
 +     * //pět let// -- nic (kolik)
 +     * //20 hodin// -- udává-li období => nic; udává-li večerní čas => 20 by byl **čas**, ale je to jednoslovné => také nic
 +     * //rok 1994// -- nic
 +     * //únor 2002// -- **čas**
 +     * //počátek září 1974// -- //"počátek"// neanotovat, zbytek je **čas**
 +     * //60. léta// -- v zásadě ano, ale 60 je jednoslovné => nic
 +     * //20. století// -- v zásadě ano, ale 20 je jednoslovné => nic
 +     * //20 hodin 15 minut// -- celé **čas**
 +     * //v 1. polovině 20. století// -- nic
 +     * //léta 1968/9//, //v sezoně 1992/1993// -- obecně záleží na tom, zda je "1980/1" je tvořeno více t-uzly (lze ověřit označkováním jedničky a klávesou F5 si nechat obarvit, co vše to zasáhlo); v tomto případě jsou to tři uzly (lomítko má vlastní uzel), takže anotovat (//"léta"// a //"v sezoně"// se každopádně neanotuje)
 +     * //8:20// -- je representováno třemi t-uzly, takže anotovat, **čas**
 +     * //od září do dubna// -- nic, není to absolutní udání času (které září)
 +   * **foreign** se použije až v případě, že nelze zařadit jinam -- buď jinam nepatří, nebo anotátor neví, o jakou entitu jde
 +     * //ad hoc// -- **foreign**
 +     * //The Jungle Book// -- **objekt**, protože anotátor ví, že je to kniha
  
 +Některá **apelativa** budeme považovat za součást entity, většinu však ne.
 +Apelativa, která budeme anotovat spolu s entitou, jsou vesměs geografické výrazy, vždy tvoří součást názvu (vynechání lze pak považovat spíše za elipsu), určují typ entity.
 +Příklady: "ulice Politických vězňů", "náměstí Míru", "Staroměstské náměstí", "chrám sv. Víta", "Štefánikův most", "most Legií", "dům U třech slunců"
 +naopak neanotujeme apelativa "kniha Babička", kapela, turnaj, společnost apod. (nejsou-li s jistotou součástí názvu -- v tom případě by měla být psána s velkým písmenem).
 +  * //Univerzita Karlova v Praze// -- anotovat celé
 +  * //Washington, DC// -- celé
 +  * //Washington, USA// -- celé
 +  * //České Budějovice, Česká republika// -- celé
 +  * //Matematicko-fyzikální fakulta, Univerzita Karlova v Praze// -- celé
 +  * //Filozofická fakulta v Českých Budějovicích// -- zvlášť fakultu, zvlášť město
 +  * //kapela Doors// -- nic (anotovalo by se jen jednoslovné //Doors//)
 +  * //turnaj U.S. Open// -- jen U.S. Open jako objekt
 +  * //chrám sv. Václava// -- celé
 +  * //pan Novák// -- nic
 +  * //ulice pplk. Sochora// -- celé
 +  * //Staroměstské náměstí// i //náměstí Míru// -- celé
 +  * //zákon o daních// -- celé (pokud je to název jednoho konkrétního zákona)
 +  * //podle zákona 1456/18, Sb.// -- bez //"podle"// celé
  
-==== K nástroji sem-ann ====+Pojmenovanou entitou **není** nic z následujících: 
 +  * //americká centrální banka// -- je to sice označení jedné konkrétní banky, ale ne její název (stejně jako //nejhlubší bod na Zemi// je Mariánský příkop); //centrální banka// patří do SemLexu 
 +  * //vládní návrh zákona o státní sociální podpoře// -- pokud to nebude název jednoho konkrétního zákona (pak by to mělo být s velkým 'Z'), není to žádná pojmenovaná entita; co se týče frazémů, je to povětšinou komposicionální, možná je //státní sociální podpora// termín (nutno pro každý konkrétní případ vyhledat, vygooglit), který by se měl uložit do SemLexu
  
- * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. + 
- * Program lze spouštět také například takto: ''./sem-ann.pl anot/lnd94103_1*.t.gz anot/lnd94103_002.t.gz''. Pak program po startu automaticky otevře soubor ''lnd94103_100.t.gz''. Po dokončení práce a uložení souboru klávesa F8 otevře soubor ''lnd94103_101.t.gz'' atd. až předposlední soubor bude ''lnd94103_199.t.gz'' a poslední ''lnd94103_002.t.gz''. Klávesa F7 umožňuje naopak vracet se k předchozímu vyjmenovanému souboru.+ 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== Frazémy ==== 
 + 
 +Vždy anotovat **doslova** přesně tou položkou slovníku, která je použita v textu. 
 +  * tedy "ministerstvo privatizace" je jiné než "privatizační ministerstvo" 
 +  * vyjímku tvoří: 
 +    * zdrobněliny: "rodinný dům" lze použít i pro anotaci "rodinného d//omku//" 
 +    * přechýlení: "ministr vnitra" lze použít i pro "ministr//yni// vnitra" 
 +    * elipsa: viz níže 
 +    * pravopisné varianty: "kuponová privatisace" lze použít pro "kup//ó//nová privati//z//ace" 
 +    * vidové dvojice: "zneuž//ití// pravomoci veřejného činitele" lze anotovat pomocí "zneužívání pr. veř. čin." 
 +    * překlep/chyba autora textu: "ministr //průmyslu a obchodu//" se anotuje "ministrem obchodu a průmyslu", ačkoli autor prohodil pořadí slov 
 +    * zkratky: "kriminální film" se použije také pro "//krim.// film"; podobně "dok. film"... 
 +    * (Pokud jsem na něco zapomněl, připište to, nebo se zeptejte. --EB) 
 +\\ 
 + 
 +Příklady toho, co už **není frazém**: 
 +  * moskevský čas 
 +  * antisemitská politika, rasistická politika 
 +  * hlavní město Rakouska (jen "hlavní město"
 +  * poslední den (ze SČFI -- zrušit) 
 +  * principy trhu, tržní principy 
 +  * //sekundární předložky:// vzhledem k, s ohledem na, ... (již předanotované sek. předl. mazat) 
 +\\ 
 + 
 +Příklady **frazémů**: 
 +  * velkosériová výroba -- je to sporné, dohodli jsme se, že ano 
 +  * sedmá třída 
 +  * ?? speciální efekt? 
 +  * zapsat se zlatým písmem 
 +  * na sklad -- adverbium 
 +  * z tohoto mraku pršet nemusí (PoS: N/A) (případně jako %%***%%derived, pokud má anotátor pocit, že originál zní jinak, třeba "...pršet nebude"
 +  * "převzetí záštity" (%%***%%derived od "převzít záštitu", morfologická derivace) 
 +\\ 
 + 
 +Příklady **nekomposicionálních** frazémů: 
 +  * vládní návrh 
 +\\ 
 + 
 +**Eliptické** užití frazému se anotuje původním frazémem, tedy například "zrakově postižený" je anotováno slovníkovou položkou "zrakově postižený člověk". Podobně "první světová" anotováno "první světovou válkou"
 +  * pokud po elipse zbyde jedno slovo, neanotuje se; (tj. článek o "Ministerstvu průmyslu a obchodu" se slovem "ministerstvo" na každém řádku, stejně jako o "fotbalové lize" se slovy "liga" bude mít anotovaný pouze ten plný víceslovný výraz.) 
 +    * výjimkou je //koordinace// typu "první a druhá světová válka", kde slovo "první" je elipsou za "první světová válka" 
 +  * "česká inspekce" -- zvláštnost stylu autora článku; s malým 'č' ve významu "Česká inspekce životního prostředí" (což celé je pojmenovaná entita, tedy není v SemLexu);\\ řešení: založit heslo "Česká inspekce životního prostředí", poznamenat k němu, že je to pojmenovaná entita instituce, a pak jím anotovat "českou inspekci" 
 +\\ 
 + 
 +**Parafráze a variace** typu //"Zloději nechodí po horách, ale po domácnostech"// se vloží jako nová položka do SemLexu s poznámkou "derived" v Glosse, která odkazuje na původní //"Neštěstí nechodí po horách, ale po lidech"//. (Pokud neexistuje, tak samozřejmě nejprve ho vyrobit, pak vyrobit odvozenou variantu s odkazem na něj.) Podobně //"Ne Rudé, ale Šedé právo"//; nový význam spojení //"Sarajevský atentát"// 
 + 
 +**Citáty** a ustálené věty typu //"Hvězdné nebe nad námi a mravní zákon v nás"// či //"Čo bolo, to bolo, terazky som majorom"// anotovat a zakládat pro ně ve slovníku hesla. (Do oblasti našeho zájmu spadají jen tím, jak jsou ustrnulá a nesubstituovatelná apod., nicméně jiná anotace je také nezachycuje.) Obměny citátů stejně jako obměny přísloví výše. 
 + 
 +V **idiomatických, leč jednoslovných** slovesných konstrukcích typu //"zapsat si další asistenci"//, či //"kéž by to tam padalo"// lze variovat vše krom slovesa. Jsou už podchycena PDT-VALLEXem a my je **neanotujeme**. 
 + 
 +=== problematické === 
 + 
 +**zákony:** pridavna slova jako "vladni" a "novela" neanotovat. 
 +Problem je, jak (a ktery) zakon anotovat. Vubec, jako NE, SemLexem. 
 + 
 +  * Pridrzet se pravidla o objektech [[guidelines#pojmenovane-entity-ne|vyse]]: tedy nazvy, ktere oznacuji jeden konkretni zakon, anotovat jako NE. (Tomu je vzdy kvivalentni vlozit ho do slovniku a vyznacit, ze je to ''%%***%%objekt''.) 
 +  * V druhe rade se ridit poznámkou slecny Stastne,((slovnik je plny souslovi, ktera se prinejmensim zdaji byt kompozicionalni, ovsem nelze na nich provest substitucni test *ministerstvo peneznich prostredku  *zakon o odvodech statu (=zakon o danich) )) totiz zkontrolovat substituovatelnost (prip. komposicionalitu). To se bude tykat asi i delsich zakonu. [Pozor, zda nahodou neni frazemem jen cast celeho vyrazu. Souhlasim se "*zakonem o odvodech statu", ale domnivam se, ze "*zakon o pridavcich na nezletile" nam nerika nic o zakone, ale jen o "pridavcich na deti".] 
 +  * Pokud ani jedno neplati, nevidim nutnost to anotovat. (Leda byste to chtely mit ve slovníku, stejne jako ostatni zakony, ktere uz v nem jsou.) V techto pripadech bych to nechal na vasem uvazeni. Anotujte konsistentne a pripadne (casem) zformulujte pravidlo, kterym se ridite. 
 + 
 + 
 +**trestné činy:** Spojeni "trestny cin" asi neni (na rozdil od zakona) soucasti nazvu, viz treba [[http://zakony.kurzy.cz/140-1961-trestni-zakon/cast-2-hlava-3/|Zneužívání pravomoci veřejného činitele]] 
 +Anotujte tedy "trestny cin" zvlast a v pripade, ze nasleduje neco, co do slovniku dat chcete, tak to tam pridejte samostatne, tedy treba to "zneuziti pravomoci verejneho cinitele". Tedy: 
 +  * "trestny cin vrazdy" -- anotovat jen "trestny cin" 
 +  * "trestny cin zneuziti pravomoci verejneho cinitele" -- zvlast 2 MWE 
 +  * "trestny cin pokusu o vrazdu" -- pouze "trestny cin" (pokud se vam na rozdil od nas nezda "pokus o vrazdu" nejak zajimavy) 
 +  * "obvinen z pokusu o vrazdu" -- nic 
 + 
 +===== K nástroji sem-ann ===== 
 + 
 +  * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. 
 +  * Program lze spouštět také například takto: ''./sem-ann.pl anot/lnd94103_1*.t.gz anot/lnd94103_002.t.gz''. Pak program po startu automaticky otevře soubor ''lnd94103_100.t.gz''. Po dokončení práce a uložení souboru klávesa F8 otevře soubor ''lnd94103_101.t.gz'' atd. až předposlední soubor bude ''lnd94103_199.t.gz'' a poslední ''lnd94103_002.t.gz''. Klávesa F7 umožňuje naopak vracet se k předchozímu vyjmenovanému souboru.
  
 === Některé užitečné klávesy === === Některé užitečné klávesy ===
Line 58: Line 236:
 |F8|Next file|//od revize 94//| |F8|Next file|//od revize 94//|
  
-==== Dotazy, nejasnosti ====+ 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +===== Dotazy, nejasnosti ==== 
 +Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních: 
 + 
 +  * Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/*dopravní hřích) a co není odlučitelné (*dopravní závažný přestupek).  
 +    - obojí je obvyklé, ale když alespoň jedno neplatí, neznamená to ještě, že o frazém v nějakém smyslu nejde.  
 +      - <del>Máme dost různých kreativních užití ("ne Rudé, ale Šedé právo"; nový význam spojení "Sarajevský atentát"), některé jsou pak časem více či méně lexikalizované. Otázka je, jak "ad hoc" frazémy značit.Prozatím navrhuji zanést jej do Semlexu a do pozn. uvést od jakého frazému je odvozen, pokud je to zřejmé (je-li ten původní kiž v SemLexu, tak ID).</del> 
 +      - //neodlučitelnost// je také sporná. Zaprvé je možná (a běžná) elipsa (Sarajevský atentát -> Sarajevo). To ale není odloučení. Ovšem i rozvití části frazému je ale možné. Co možné není, je porušení přímé závislosti všech částí frazému, neboli rozdělení (přerušení) jeho syntaktického stromu jiným uzlem. 
 +  * <del>Apelativa jako "ulice", "náměstí" (např. ve spojení "Staroměstské náměstí" i "náměstí Míru") apod. jsou součástí pojmenovaných entit</del> 
 +    - <del>ano --ps</del> 
 +  * <del>slovo "zákon" je součástí názvu (zákon o daních, podle zákona 1456/18, Sb.)</del> 
 +    - <del>souhlas. --ps</del> 
 +  * <del>NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, je to INSTITUCE (GVŠ koupila obraz x jdu do GVŠ)</del> 
 +    - <del>ano, přesně tak si to představuji. --ps</del> 
 +  * <del>devět sekund, pět let, 20 hodin – jde o čas ?</del>(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat?\\ <del>Nemůžu najít odpověď na tuto otázku -- je někde jinde? Další příklad je "únor 2002" a ten snad anotovat chceme. Ovšem stejně jako všechny předchozí příklady sestává ze dvou (a více) tektogramatických uzlů, což snad je naše kritérium... --EB</del> 
 +   * Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů ("výkonná rada oddělení obvodního úřadu pro míru nezaměstnanosti"
 +    - //variabilní//: zavést "dostat měsíců natvrdo" apod. vzhledem k syntakt. struktuře se najdou všechny výskyty. Ovšem do poznámky uvést, že to rozvití "měsíců" je obligatorní. Horší je, že zde může variovat i měsíců/let a "natvrdo a podmíněně". Prozatím nezbyde, než to vše mít jako samostatná hesla SemLexu, ale optimální to není. MOC DOBRÝ PŘÍKLAD. DÍKY. --ps 
 +    - //rozvíjitelné//: označit celek, zavést jej do SemLexu. Jeho frazeologické části jsou zajímavý problém do budoucna, ale zcela samostatný. Lexikografická záležitost. Alespoň dokud nenajdete lepší příklad :-) 
 + 
 +  * Případy jako //první vlna//, //druhá vlna// aj. kazdý značíme jako  frazém, těch vln asi není až tak hodně, max. 10. 
 +  * Ve frazémech typu //přešla mne chut'// značíme jen //přejít chut'//
 + 
 + 
 +==PŠ+PV== 
 + 
 +Další otázky:  
 +1) jak znacit vyrazy jako: vládní návrh zákona o sociální podpoře 
 + jmena zakonu obecne znacim jako objekty, ale tady se zaroven krizi: vladni navrh, navrh zakona, zakon o socialni podpore a socialni podpora - je v takovych pripadech lepsi zadat cele heslo do slovniku s tim, ze bude slovnik velmi rychle narustat, nebo vyraz rozkouskovat a v tom pripade jak? 
 +2) jak anotovat <del>fakulty a názvy univerzit,</del> obory apod? 
 +3) <del>jak znacit parafraze a nekonecne mnozstvi variaci typu "Zloději nechodí po horách, ale po domácnostech" (pv)</del> 
 + 
 +[[oldlines|Starší pravidla]] (používaná do 23. 7. 2008).

[ Back to the navigation ] [ Back to the content ]