Both sides previous revision
Previous revision
Next revision
|
Previous revision
|
external:lexemann:guidelines [2008/06/20 18:17] pavel.sidak |
external:lexemann:guidelines [2013/12/05 15:35] (current) bejcek oprava formátování |
====== Anotační instrukce ====== | ====== Anotační instrukce ====== |
| |
| ===== Pravidla ===== |
| |
==== Pravidla ==== | |
| |
== SemLex -- slovník víceslovných lexémů == | |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| ==== SemLex -- slovník víceslovných lexémů ==== |
* Vyhledávání | * Vyhledávání |
| - kliknout na Hledat, nebo stisknout S |
| - vyplnit "Základní tvar", nebo "Lemmatizovaný tvar" |
| - stisknout Enter (neklikat na Hledat) |
| - Pomocí tlačítek "P" a "N" (či pomocí Ctrl-p a Ctrl-n) vybrat z více možností tu požadovanou, nebo pomocí roletkového menu Základní tvar (nefunguje vždy dobře, viz ticket #79) |
* Přidávání do slovníku | * Přidávání do slovníku |
* nejde-li něco udělat, poznamenat to do "glosa" a označit třemi hvězdičkami (tedy ''%%***%%poznámka'') k dalšímu ručnímu posouzení | * nejde-li něco udělat, poznamenat to do "glosa" a označit třemi hvězdičkami (tedy ''%%***%%poznámka'') k dalšímu ručnímu posouzení |
* je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci | * je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci |
* Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''. | * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''. |
| * Pokud přidáváte položku zřetelně odvozenou od jiné, která už ve slovníku je, poznamenejte to opět do glosy jako ''%%***%%derived from: <ID číslo původní položky>''\\ později bude vyhledání přidáno přimo do programu (např. "zrakově postižený člověk" je odvozený od "zdravotně postižený člověk"). |
| * Pro frazémy neurčitého slovního druhu (jako např. "laicky řečeno" -- asi částice?) a větné frazémy (jako přísloví) zvolte jako PoS hodnotu "N/A". |
| * Je-li potřeba položku smazat, použijte ''%%***%%remove'' do glosy a případně připište důvod (vytvořeno omylem, duplicitní heslo, není frazémem, ...) |
| * Existuje-li heslo jak v singuláru, tak v plurálu (a není pro to důvod), je potřeba tímto způsobem jedno z nich smazat. V případech jako "cenný papír", "obchodní vztah" se smaže plurál (který není ničím jiným než více kusy singuláru). V případě jako "sportovní potřeby" se singulár prakticky nepoužívá, smaže se tedy ten. |
| * Synonymum -- založit jako novou položku ve slovníku, ideálně propojit se svým protějškem vyplněním okénka Synonyma (vepsat buď výraz, nebo ID synonymního protějšku v SemLexu). (Pokud anotátor ví, nebo později zjistí, že protějšek ve slovníku je, vyplní ID.) |
| * Homonymie -- v případě, že je potřeba založit druhé heslo se stejným "Základním tvarem", připište na jeho konec ":2", například "přímá volba :2". (Přímá volba se týká volby například presidenta lidem a také telefonní volby jedním tlačítkem.) |
| * Při vytváření lemmatisovaného tvaru od |
| * negovaného slova platí, že se předpona "ne-" odtrhává od slova vždy -- krom případů, kdy vzniklé slovo buď neexistuje, nebo není protikladem. Existuje-li tedy jasná dvojice protikladů tvořených pomocí "ne-", pište prosím jako lemma vždy tvar bez předpony.\\ nejasný -> jasný\\ nepřijít -> přijít\\ ...\\ ale:\\ nenechavý -> nenechavý (nechavý neexistuje)\\ nemocný -> nemocný (mocný má úplně jiný význam) |
| * výrazu s čárkou ("Ministerstvo školství**,** mládeže a tělovýchovy") se (zatím, pro konsistenci) čárka v lemmatisovaném tvaru také uvádí. |
| * Vybrané příklady: |
| * rozpočtová kapitola -- **ano** (ne každá kapitola lze říci takto s adjektivem)\\ Hypothesa: <html>Existuje-li spojení X<font size="-5">Adj</font>-Y<font size="-5">Subst</font> ("rozpočtová kapitola"), které lze obrátit na Y<font size="-5">Subst</font>-X<font size="-5">Subst</font> ("kapitola rozpočtu") s přibližně stejným významem, zatímco jiné podobné A<font size="-5">Subst</font>-B<font size="-5">Subst</font> ("kapitola zákona") na adjektivní formu převést nelze (*"zákonná kapitola"), je to dobrý důvod pro anotaci. (Případné další příklady a také protipříklady možno psát sem.)</html> |
| * diplomatická čtvrť, ekonomický náměstek, měnový výbor -- ano |
| * marketingová metoda, marketingová smlouva -- asi ne |
| * Grepl v Příruční mluvnici mluví o tom, že adjektivní spojení zastírá význam a jako příklad uvádí oblíbené knedlíky (bramborové vs. švestkové). To tedy svědčí pro to, že adjektivní varianta by se měla anotovat, neboť má zastřenější význam. |
| * imobilní občan -- **ne** (je to jako "občan, který nemůže chodit") |
| * veřejný objekt, bytový objekt -- **ano** |
| * přímá úměra, nepřímá úměra -- **ano** (obojí, není to protiklad; lemma "přímý úměra") |
| * schodišťová plošina, šikmá schodišťová plošina -- **ano** (obojí; "schodišťová plošina" (MWE) má často podobu "šikmé schodišťové plošiny" (MWE)) |
| * Položky ze SČFI nemají vyplněn PoS. Doplňujte ho, když takové slovníkové heslo použijete. |
| |
| |
| ==== Pojmenované entity ("NE") ==== |
| **v této fázi se zabýváme jen striktně víceslovnými NE:** tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu. Z toho důvodu neanotujeme ani jednoslovné zkratky víceslovných NE (např. ČSSD). (Pozor, KDU-ČSL má tři tektogramatické uzly, proto je (a všechny ostatní zkratky s pomlčkou, spojovníkem, či mezerou ("MFF UK")) chceme **anotovat** již v této fázi jako instituce). |
| |
| Vnitřní struktura nás (prozatím) nezajímá, takže například "Astronomický ústav Univerzity Karlovy v Praze" anotujeme jako jednu jedinou instituci. |
| |
| <html><font color="red">V současné podobě jsou instrukce (zejména v oblasti apelativ) někdy až protichůdné. Neznajíce dobré řešení, zveřejňujeme je alespoň tak a řešení zkusíme zkonsultovat s prací O. Krůzy.</font></html> |
| |
== Pojmenované entity == | ---- |
- **v této fázi se zabýváme jen striktně víceslovnými NE: tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu.** | |
--- | |
* TODO Sjednotit (zde i ve sem-ann-u) anglické a české názvy. Třeba person pro jméno žáby je poněkud matoucí. (podle mne není, jde o personifikaci --ps) | |
| |
* **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly | * **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly |
* v případech jako "prezident V. Klaus" nebude 'prezident' anotován jako součást jména. Výraz je totiž do značné míry samostatný, jméno může být i vynecháno. Titul jako součást jména anotujeme jen v případech, kdy nemá samostatný význam, kdy o danou funkci v textu vůbec nejde. V těchto případech je titul typicky zapisován zkratkou. Jméno v těchto případech nemůže být elidováno. | * v případech jako "prezident V. Klaus" nebude 'prezident' anotován jako součást jména. Výraz je totiž do značné míry samostatný, jméno může být i vynecháno. Titul jako součást jména anotujeme jen v případech, kdy nemá samostatný význam, kdy o danou funkci v textu vůbec nejde. V těchto případech je titul typicky zapisován zkratkou. Jméno v těchto případech nemůže být elidováno. |
| * //profesor P. Novák// -- **jméno** je //P. Novák// |
| * //prof. Novák// -- **jméno** |
| * //princ z Walesu// -- nic (je to titul, takže to celé může být přidáno do **SemLex**u) |
| * //Železná lady// -- přidat do **SemLex**u a anotovat |
| * (víceslovné značky autorů pod článkem (pokud víceslovné existují) značit jako entity reprezentující jména osob) |
| * **instituce** |
| * //Dental, s.r.o.// celé **instituce**, ovšem pouze když je to zkratkou (jako prof. Novák) |
| * __veletrhy__ a __soutěže__ jsou **instituce** (podle dokumentu "Skupiny pojmenovaných entit") |
| |
* **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**. | * **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**. |
* Spadají sem tedy: | * Spadají sem tedy: |
- kulturní artefakty (názvy knih, filmů, festivalů apod., předpisů, zákonů, ...) | - kulturní artefakty (názvy knih, filmů, festivalů apod., předpisů, zákonů, ...) |
| * podtitul je součástí názvu (knihy) |
- názvy výrobků (Intel Pentium Pro) | - názvy výrobků (Intel Pentium Pro) |
- názvy měn (americký dolar)((tyto sem sice věcně spadají, ale jelikož jde o skupinu relativně omezenou, zavádějte je jako víceslovné lexémy do slovníku!)) | - názvy měn (americký dolar)((tyto sem sice věcně spadají, ale jelikož jde o skupinu relativně omezenou, zavádějte je jako víceslovné lexémy do slovníku!)) |
- biologické názvy (brouk patří do "čeledi X, druhu Y, skupiny Z") | - biologické názvy (brouk patří do "čeledi X, druhu Y, skupiny Z") |
* //ČNB Na Příkopech// -- tím je myšlena budova, nikoli instituce, tudíž je to **objekt** | * //ČNB Na Příkopech// -- tím je myšlena budova, nikoli instituce, tudíž je to **objekt** |
| * //2654 m n.m.//, //v tisíci metrech nad mořem// -- //"m n.m."// (i psaný slovy) je **objekt** |
| * //př. K.// -- **objekt** |
| * //Kč/hod.//, //korun za hodinu// -- **objekt** |
| |
* **adresa**\\ problém hranice mezi **jméno**/**instituce** + **místo** a **adresa**\\ přesné pravidlo: **adresa musí obsahovat ulici a/nebo doplňující (ne-místní) údaj typu tel./PSČ/fax/e-mail**; jinak se anotuje každé zvlášť, tj. např. obvyklá forma //jméno a/nebo instituce, město// není dostatečně přesně určeno, aby to mohlo být považováno za adresu. Příklady: | * **adresa**\\ problém hranice mezi **jméno**/**instituce** + **místo** a **adresa**\\ přesné pravidlo: **adresa musí obsahovat ulici a/nebo doplňující (ne-místní) údaj typu tel./PSČ/fax/e-mail**; jinak se anotuje každé zvlášť, tj. např. obvyklá forma //jméno a/nebo instituce, město// není dostatečně přesně určeno, aby to mohlo být považováno za adresu. Příklady: |
* //Petr Novák, ÚFAL// -- **jméno**, **instituce** | * //Petr Novák, ÚFAL// -- **jméno**, **instituce** |
* //Petr Novák, ÚFAL, Malostranské náměstí 25// -- **adresa** | * //Petr Novák, ÚFAL, Malostranské náměstí 25// -- **adresa** |
* //Svoboda, 777 578 975// -- **adresa** | * //Svoboda, 777 578 975// -- **adresa** |
| * //kontakt: 777 578 975// -- v tomto případě je to celé **adresa**, neboť "kontakt" zde vlastně znamená "telefon" |
| * //kontakt: 777 578 975, e-mail pepa@ufal.cz, fax: 222333456// -- bez "kontakt:" je to **adresa** |
| * //č.ú.: 4328-483859392054/0303// -- celé **adresa** |
| * //jdu do galerie Václava Špály// -- **místo** |
| * //Galerie Václava Špály koupila obraz// -- **instituce**, protože je to personifikace |
| |
* **biblio** je pouze bibliografický údaj, čili něco strukturovaného\\ jméno knihy (stejně jako jméno filmu) je jen **objekt** (zadny **biblio**)\\ Kde je hranice? //Božena Němcová, Babička, str. 143// budeme posuzovat jak? (Kol. Šidák dostal pokyn označit jako **biblio** a poznamenat na papír s připomínkami pro nás) | * **biblio** je pouze bibliografický údaj, čili něco strukturovaného\\ jméno knihy (stejně jako jméno filmu) je jen **objekt** (zadny **biblio**)\\ Kde je hranice? //Božena Němcová, Babička, str. 143// budeme posuzovat jak? (Kol. Šidák dostal pokyn označit jako **biblio** a poznamenat na papír s připomínkami pro nás) |
* **X** slouží primárně pro nezařaditelné entity\\ prozatím také pro označování množství, neboť to dosud (TODO) nemá vlastní značku | * **X** slouží primárně pro nezařaditelné entity\\ prozatím také pro označování množství, neboť to dosud (TODO) nemá vlastní značku;\\ pomocí **X** se také anotují např. šachové koncovky |
* //100 -- 200 metrů čtverečních// -- **X**, **objekt** | * //100 -- 200 metrů čtverečních// -- **X**, **objekt** |
* //10 m// -- nic nic | * //10 m// -- nic nic |
* //od 10 do 18 let// -- **X** je "//od 10 do 18//", "//let//" je nic | * //od 10 do 18 let// -- **X** je "//od 10 do 18//", "//let//" je nic |
* //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic | * //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic |
| * //1. c7 Vd6+ 2. Kb5 Vd5+ 3. Kb4 Vd4+ 4. Kb3 Vd3+ 5. Kc2! Vd4! 6. c8V! Va4 7. Kb3// -- celé jako **X** jakožto šachová koncovka |
| * //pět milionů// -- **X** |
| * //3%//, //3-7%//, //pět a půl procenta// -- vše **X** |
| * **čas** anotujeme pouze v případě odpovědi na otázku "kdy", ne však na otázku "kolik" |
| * //devět sekund// -- nic (kolik) |
| * //pět let// -- nic (kolik) |
| * //20 hodin// -- udává-li období => nic; udává-li večerní čas => 20 by byl **čas**, ale je to jednoslovné => také nic |
| * //rok 1994// -- nic |
| * //únor 2002// -- **čas** |
| * //počátek září 1974// -- //"počátek"// neanotovat, zbytek je **čas** |
| * //60. léta// -- v zásadě ano, ale 60 je jednoslovné => nic |
| * //20. století// -- v zásadě ano, ale 20 je jednoslovné => nic |
| * //20 hodin 15 minut// -- celé **čas** |
| * //v 1. polovině 20. století// -- nic |
| * //léta 1968/9//, //v sezoně 1992/1993// -- obecně záleží na tom, zda je "1980/1" je tvořeno více t-uzly (lze ověřit označkováním jedničky a klávesou F5 si nechat obarvit, co vše to zasáhlo); v tomto případě jsou to tři uzly (lomítko má vlastní uzel), takže anotovat (//"léta"// a //"v sezoně"// se každopádně neanotuje) |
| * //8:20// -- je representováno třemi t-uzly, takže anotovat, **čas** |
| * //od září do dubna// -- nic, není to absolutní udání času (které září) |
| * **foreign** se použije až v případě, že nelze zařadit jinam -- buď jinam nepatří, nebo anotátor neví, o jakou entitu jde |
| * //ad hoc// -- **foreign** |
| * //The Jungle Book// -- **objekt**, protože anotátor ví, že je to kniha |
| |
| Některá **apelativa** budeme považovat za součást entity, většinu však ne. |
| Apelativa, která budeme anotovat spolu s entitou, jsou vesměs geografické výrazy, vždy tvoří součást názvu (vynechání lze pak považovat spíše za elipsu), určují typ entity. |
| Příklady: "ulice Politických vězňů", "náměstí Míru", "Staroměstské náměstí", "chrám sv. Víta", "Štefánikův most", "most Legií", "dům U třech slunců" |
| naopak neanotujeme apelativa "kniha Babička", kapela, turnaj, společnost apod. (nejsou-li s jistotou součástí názvu -- v tom případě by měla být psána s velkým písmenem). |
| * //Univerzita Karlova v Praze// -- anotovat celé |
| * //Washington, DC// -- celé |
| * //Washington, USA// -- celé |
| * //České Budějovice, Česká republika// -- celé |
| * //Matematicko-fyzikální fakulta, Univerzita Karlova v Praze// -- celé |
| * //Filozofická fakulta v Českých Budějovicích// -- zvlášť fakultu, zvlášť město |
| * //kapela Doors// -- nic (anotovalo by se jen jednoslovné //Doors//) |
| * //turnaj U.S. Open// -- jen U.S. Open jako objekt |
| * //chrám sv. Václava// -- celé |
| * //pan Novák// -- nic |
| * //ulice pplk. Sochora// -- celé |
| * //Staroměstské náměstí// i //náměstí Míru// -- celé |
| * //zákon o daních// -- celé (pokud je to název jednoho konkrétního zákona) |
| * //podle zákona 1456/18, Sb.// -- bez //"podle"// celé |
| |
==== K nástroji sem-ann ==== | Pojmenovanou entitou **není** nic z následujících: |
| * //americká centrální banka// -- je to sice označení jedné konkrétní banky, ale ne její název (stejně jako //nejhlubší bod na Zemi// je Mariánský příkop); //centrální banka// patří do SemLexu |
| * //vládní návrh zákona o státní sociální podpoře// -- pokud to nebude název jednoho konkrétního zákona (pak by to mělo být s velkým 'Z'), není to žádná pojmenovaná entita; co se týče frazémů, je to povětšinou komposicionální, možná je //státní sociální podpora// termín (nutno pro každý konkrétní případ vyhledat, vygooglit), který by se měl uložit do SemLexu |
| |
* Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. | |
* Program lze spouštět také například takto: ''./sem-ann.pl anot/lnd94103_1*.t.gz anot/lnd94103_002.t.gz''. Pak program po startu automaticky otevře soubor ''lnd94103_100.t.gz''. Po dokončení práce a uložení souboru klávesa F8 otevře soubor ''lnd94103_101.t.gz'' atd. až předposlední soubor bude ''lnd94103_199.t.gz'' a poslední ''lnd94103_002.t.gz''. Klávesa F7 umožňuje naopak vracet se k předchozímu vyjmenovanému souboru. | |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| ==== Frazémy ==== |
| |
| Vždy anotovat **doslova** přesně tou položkou slovníku, která je použita v textu. |
| * tedy "ministerstvo privatizace" je jiné než "privatizační ministerstvo" |
| * vyjímku tvoří: |
| * zdrobněliny: "rodinný dům" lze použít i pro anotaci "rodinného d//omku//" |
| * přechýlení: "ministr vnitra" lze použít i pro "ministr//yni// vnitra" |
| * elipsa: viz níže |
| * pravopisné varianty: "kuponová privatisace" lze použít pro "kup//ó//nová privati//z//ace" |
| * vidové dvojice: "zneuž//ití// pravomoci veřejného činitele" lze anotovat pomocí "zneužívání pr. veř. čin." |
| * překlep/chyba autora textu: "ministr //průmyslu a obchodu//" se anotuje "ministrem obchodu a průmyslu", ačkoli autor prohodil pořadí slov |
| * zkratky: "kriminální film" se použije také pro "//krim.// film"; podobně "dok. film"... |
| * (Pokud jsem na něco zapomněl, připište to, nebo se zeptejte. --EB) |
| \\ |
| |
| Příklady toho, co už **není frazém**: |
| * moskevský čas |
| * antisemitská politika, rasistická politika |
| * hlavní město Rakouska (jen "hlavní město") |
| * poslední den (ze SČFI -- zrušit) |
| * principy trhu, tržní principy |
| * //sekundární předložky:// vzhledem k, s ohledem na, ... (již předanotované sek. předl. mazat) |
| \\ |
| |
| Příklady **frazémů**: |
| * velkosériová výroba -- je to sporné, dohodli jsme se, že ano |
| * sedmá třída |
| * ?? speciální efekt? |
| * zapsat se zlatým písmem |
| * na sklad -- adverbium |
| * z tohoto mraku pršet nemusí (PoS: N/A) (případně jako %%***%%derived, pokud má anotátor pocit, že originál zní jinak, třeba "...pršet nebude") |
| * "převzetí záštity" (%%***%%derived od "převzít záštitu", morfologická derivace) |
| \\ |
| |
| Příklady **nekomposicionálních** frazémů: |
| * vládní návrh |
| \\ |
| |
| **Eliptické** užití frazému se anotuje původním frazémem, tedy například "zrakově postižený" je anotováno slovníkovou položkou "zrakově postižený člověk". Podobně "první světová" anotováno "první světovou válkou". |
| * pokud po elipse zbyde jedno slovo, neanotuje se; (tj. článek o "Ministerstvu průmyslu a obchodu" se slovem "ministerstvo" na každém řádku, stejně jako o "fotbalové lize" se slovy "liga" bude mít anotovaný pouze ten plný víceslovný výraz.) |
| * výjimkou je //koordinace// typu "první a druhá světová válka", kde slovo "první" je elipsou za "první světová válka" |
| * "česká inspekce" -- zvláštnost stylu autora článku; s malým 'č' ve významu "Česká inspekce životního prostředí" (což celé je pojmenovaná entita, tedy není v SemLexu);\\ řešení: založit heslo "Česká inspekce životního prostředí", poznamenat k němu, že je to pojmenovaná entita instituce, a pak jím anotovat "českou inspekci" |
| \\ |
| |
| **Parafráze a variace** typu //"Zloději nechodí po horách, ale po domácnostech"// se vloží jako nová položka do SemLexu s poznámkou "derived" v Glosse, která odkazuje na původní //"Neštěstí nechodí po horách, ale po lidech"//. (Pokud neexistuje, tak samozřejmě nejprve ho vyrobit, pak vyrobit odvozenou variantu s odkazem na něj.) Podobně //"Ne Rudé, ale Šedé právo"//; nový význam spojení //"Sarajevský atentát"// |
| |
| **Citáty** a ustálené věty typu //"Hvězdné nebe nad námi a mravní zákon v nás"// či //"Čo bolo, to bolo, terazky som majorom"// anotovat a zakládat pro ně ve slovníku hesla. (Do oblasti našeho zájmu spadají jen tím, jak jsou ustrnulá a nesubstituovatelná apod., nicméně jiná anotace je také nezachycuje.) Obměny citátů stejně jako obměny přísloví výše. |
| |
| V **idiomatických, leč jednoslovných** slovesných konstrukcích typu //"zapsat si další asistenci"//, či //"kéž by to tam padalo"// lze variovat vše krom slovesa. Jsou už podchycena PDT-VALLEXem a my je **neanotujeme**. |
| |
| === problematické === |
| |
| **zákony:** pridavna slova jako "vladni" a "novela" neanotovat. |
| Problem je, jak (a ktery) zakon anotovat. Vubec, jako NE, SemLexem. |
| |
| * Pridrzet se pravidla o objektech [[guidelines#pojmenovane-entity-ne|vyse]]: tedy nazvy, ktere oznacuji jeden konkretni zakon, anotovat jako NE. (Tomu je vzdy kvivalentni vlozit ho do slovniku a vyznacit, ze je to ''%%***%%objekt''.) |
| * V druhe rade se ridit poznámkou slecny Stastne,((slovnik je plny souslovi, ktera se prinejmensim zdaji byt kompozicionalni, ovsem nelze na nich provest substitucni test *ministerstvo peneznich prostredku *zakon o odvodech statu (=zakon o danich) )) totiz zkontrolovat substituovatelnost (prip. komposicionalitu). To se bude tykat asi i delsich zakonu. [Pozor, zda nahodou neni frazemem jen cast celeho vyrazu. Souhlasim se "*zakonem o odvodech statu", ale domnivam se, ze "*zakon o pridavcich na nezletile" nam nerika nic o zakone, ale jen o "pridavcich na deti".] |
| * Pokud ani jedno neplati, nevidim nutnost to anotovat. (Leda byste to chtely mit ve slovníku, stejne jako ostatni zakony, ktere uz v nem jsou.) V techto pripadech bych to nechal na vasem uvazeni. Anotujte konsistentne a pripadne (casem) zformulujte pravidlo, kterym se ridite. |
| |
| |
| **trestné činy:** Spojeni "trestny cin" asi neni (na rozdil od zakona) soucasti nazvu, viz treba [[http://zakony.kurzy.cz/140-1961-trestni-zakon/cast-2-hlava-3/|Zneužívání pravomoci veřejného činitele]] |
| Anotujte tedy "trestny cin" zvlast a v pripade, ze nasleduje neco, co do slovniku dat chcete, tak to tam pridejte samostatne, tedy treba to "zneuziti pravomoci verejneho cinitele". Tedy: |
| * "trestny cin vrazdy" -- anotovat jen "trestny cin" |
| * "trestny cin zneuziti pravomoci verejneho cinitele" -- zvlast 2 MWE |
| * "trestny cin pokusu o vrazdu" -- pouze "trestny cin" (pokud se vam na rozdil od nas nezda "pokus o vrazdu" nejak zajimavy) |
| * "obvinen z pokusu o vrazdu" -- nic |
| |
| ===== K nástroji sem-ann ===== |
| |
| * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. |
| * Program lze spouštět také například takto: ''./sem-ann.pl anot/lnd94103_1*.t.gz anot/lnd94103_002.t.gz''. Pak program po startu automaticky otevře soubor ''lnd94103_100.t.gz''. Po dokončení práce a uložení souboru klávesa F8 otevře soubor ''lnd94103_101.t.gz'' atd. až předposlední soubor bude ''lnd94103_199.t.gz'' a poslední ''lnd94103_002.t.gz''. Klávesa F7 umožňuje naopak vracet se k předchozímu vyjmenovanému souboru. |
| |
=== Některé užitečné klávesy === | === Některé užitečné klávesy === |
| |
| |
==== Dotazy, nejasnosti === | |
| |
| |
| |
| |
| ===== Dotazy, nejasnosti ==== |
Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních: | Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních: |
| |
* Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/*dopravní hřích) a co není odlučitelné (*dopravní závažný přestupek). | * Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/*dopravní hřích) a co není odlučitelné (*dopravní závažný přestupek). |
- obojí je obvyklé, ale když alespoň jedno neplatí, neznamená to ještě, že o frazém v nějakém smyslu nejde. | - obojí je obvyklé, ale když alespoň jedno neplatí, neznamená to ještě, že o frazém v nějakém smyslu nejde. |
- Máme dost různých kreativních užití ("ne Rudé, ale Šedé právo"; nový význam spojení "Sarajevský atentát"), některé jsou pak časem více či méně lexikalizované. Otázka je, jak "ad hoc" frazémy značit.Prozatím navrhuji zanést jej do Semlexu a do pozn. uvést od jakého frazému je odvozen, pokud je to zřejmé (je-li ten původní kiž v SemLexu, tak ID). | - <del>Máme dost různých kreativních užití ("ne Rudé, ale Šedé právo"; nový význam spojení "Sarajevský atentát"), některé jsou pak časem více či méně lexikalizované. Otázka je, jak "ad hoc" frazémy značit.Prozatím navrhuji zanést jej do Semlexu a do pozn. uvést od jakého frazému je odvozen, pokud je to zřejmé (je-li ten původní kiž v SemLexu, tak ID).</del> |
- //neodlučitelnost// je také sporná. Zaprvé je možná (a běžná) elipsa (Sarajevský atentát -> Sarajevo). To ale není odloučení. Ovšem i rozvití části frazému je ale možné. Co možné není, je porušení přímé závislosti všech částí frazému, neboli rozdělení (přerušení) jeho syntaktického stromu jiným uzlem. | - //neodlučitelnost// je také sporná. Zaprvé je možná (a běžná) elipsa (Sarajevský atentát -> Sarajevo). To ale není odloučení. Ovšem i rozvití části frazému je ale možné. Co možné není, je porušení přímé závislosti všech částí frazému, neboli rozdělení (přerušení) jeho syntaktického stromu jiným uzlem. |
* Apelativa jako "ulice", "náměstí" (např. ve spojení "Staroměstské náměstí" i "náměstí Míru") apod. jsou součástí pojmenovaných entit | * <del>Apelativa jako "ulice", "náměstí" (např. ve spojení "Staroměstské náměstí" i "náměstí Míru") apod. jsou součástí pojmenovaných entit</del> |
- ano --ps | - <del>ano --ps</del> |
* slovo "zákon" je součástí názvu (zákon o daních, podle zákona 1456/18, Sb.) | * <del>slovo "zákon" je součástí názvu (zákon o daních, podle zákona 1456/18, Sb.)</del> |
- souhlas. --ps | - <del>souhlas. --ps</del> |
* NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, je to INSTITUCE (GVŠ koupila obraz x jdu do GVŠ) | * <del>NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, je to INSTITUCE (GVŠ koupila obraz x jdu do GVŠ)</del> |
- ano, přesně tak si to představuji. --ps | - <del>ano, přesně tak si to představuji. --ps</del> |
* devět sekund, pět let, 20 hodin – jde o čas ?(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat? | * <del>devět sekund, pět let, 20 hodin – jde o čas ?</del>(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat?\\ <del>Nemůžu najít odpověď na tuto otázku -- je někde jinde? Další příklad je "únor 2002" a ten snad anotovat chceme. Ovšem stejně jako všechny předchozí příklady sestává ze dvou (a více) tektogramatických uzlů, což snad je naše kritérium... --EB</del> |
* Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů ("výkonná rada oddělení obvodního úřadu pro míru nezaměstnanosti") | * Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů ("výkonná rada oddělení obvodního úřadu pro míru nezaměstnanosti") |
- //variabilní//: zavést "dostat měsíců natvrdo" apod. vzhledem k syntakt. struktuře se najdou všechny výskyty. Ovšem do poznámky uvést, že to rozvití "měsíců" je obligatorní. Horší je, že zde může variovat i měsíců/let a "natvrdo a podmíněně". Prozatím nezbyde, než to vše mít jako samostatná hesla SemLexu, ale optimální to není. MOC DOBRÝ PŘÍKLAD. DÍKY. --ps | - //variabilní//: zavést "dostat měsíců natvrdo" apod. vzhledem k syntakt. struktuře se najdou všechny výskyty. Ovšem do poznámky uvést, že to rozvití "měsíců" je obligatorní. Horší je, že zde může variovat i měsíců/let a "natvrdo a podmíněně". Prozatím nezbyde, než to vše mít jako samostatná hesla SemLexu, ale optimální to není. MOC DOBRÝ PŘÍKLAD. DÍKY. --ps |
- //rozvíjitelné//: označit celek, zavést jej do SemLexu. Jeho frazeologické části jsou zajímavý problém do budoucna, ale zcela samostatný. Lexikografická záležitost. Alespoň dokud nenajdete lepší příklad :-) | - //rozvíjitelné//: označit celek, zavést jej do SemLexu. Jeho frazeologické části jsou zajímavý problém do budoucna, ale zcela samostatný. Lexikografická záležitost. Alespoň dokud nenajdete lepší příklad :-) |
| |
* //značky autorů pod článkem navrhuji značit jako entity reprezentující jména osob// (--ps) | * Případy jako //první vlna//, //druhá vlna// aj. kazdý značíme jako frazém, těch vln asi není až tak hodně, max. 10. |
| * Ve frazémech typu //přešla mne chut'// značíme jen //přejít chut'//. |
| |
==PŠ+PV== | ==PŠ+PV== |
| |
Ještě technický problém: občas některé lexémy naprosto nevysvětlitelně nelze označit a program hlásí, že "vybraný text nemá smysl anotovat"(přitom to jsou ale výrazy, které prokazatelně smysl anotovat má), několikrát se to stalo i u celého souboru. (PŠ+PV) | |
- potřebujeme přesný údaj, kde se to stalo. Jinak chybu nemůžeme opravit. (--ps) | |
| |
* první příklad, se kterým jsem se dnes setkal: v souboru ln95047_134.t.gz se (což se stává) opakuje poslední věta dvakrát; v obou případech nelze označit druhou půlku telefonního čísla (= součást adresy). (pš) | |
* další příklad: soubor ln95047_137, 6. odstavec, výraz "nemocniční zařízení": lze označit jen "nemocniční", nikoli "zařízení". (pš) | |
* dalsi priklady souboru, kdy je posledni veta zdvojena a nektere vyrazy v ni nelze anotovat: davka 14/soubor 18; 14/31; | |
14/50; 14/72; 15/22, 23 (skoro celé nelze anotovat); 16/51; 16/74; 16/134 (pv) | |
| |
Další otázky: | Další otázky: |
1) jak znacit vyrazy jako: vládní návrh zákona o sociální podpoře | 1) jak znacit vyrazy jako: vládní návrh zákona o sociální podpoře |
jmena zakonu obecne znacim jako objekty, ale tady se zaroven krizi: vladni navrh, navrh zakona, zakon o socialni podpore a socialni podpora - je v takovych pripadech lepsi zadat cele heslo do slovniku s tim, ze bude slovnik velmi rychle narustat, nebo vyraz rozkouskovat a v tom pripade jak? | jmena zakonu obecne znacim jako objekty, ale tady se zaroven krizi: vladni navrh, navrh zakona, zakon o socialni podpore a socialni podpora - je v takovych pripadech lepsi zadat cele heslo do slovniku s tim, ze bude slovnik velmi rychle narustat, nebo vyraz rozkouskovat a v tom pripade jak? |
2) jak anotovat fakulty a názvy univerzit, obory apod? | 2) jak anotovat <del>fakulty a názvy univerzit,</del> obory apod? |
3) jak znacit parafraze a nekonecne mnozstvi variaci typu "Zloději nechodí po horách, ale po domácnostech" (pv) | 3) <del>jak znacit parafraze a nekonecne mnozstvi variaci typu "Zloději nechodí po horách, ale po domácnostech" (pv)</del> |
| |
| ==otázky E. Šťastné (únor 2009)== |
| únor 2009; odpovědi P. Straňák + P. Šidák |
| |
| - Jaká je řekněme lingvistická definice toho, co mám pojmenovávat? Víceslovná vlastní jména? Chápu to správně, že se neoznačují všechna víceslovná pojmenování, ale prostě jen to, co začíná velkým písmenem? Proč? co dělat s příklady, kdy nejde o vlastní jméno, jako "americké ministerstvo zahraničí rozhodlo" - vše s malým, nic?; "arabská čtvrť v Jeruzalémě" - nic?, "izraelsko-palestinská smlouva byla podepsána"? A co dělat s pojmenováními, která mají před sebou adjektivum, takže malé písmeno ("jižní Čechy") |
| * čistě lingvistickou definici nelze dát, neboť se pohybujeme i mimo pole lingvistiky (např. kategorie "adresa" či "bibliografický údaj" jsou extralingvistické); "izraelsko-pal. smlouva" se značit NEBUDE; značila by se jen v případě, kdyby byla psána s velkým písmenem (tam by pak pravopis naznačoval, že jde o vlastní jméno -> objekt; viz bod 4); |
| - jde o funkci nebo lexikální jednotku? - př: "společnosti, které mají v České republice obchodní zastoupení" - ČR je zde místo? x "Česká republika zaujala postoj" - instituce? - je cílem spíše určit lex. jednotku jako příslušnou k jednomu určení, nebo postihnout všecny způsoby užití? |
| * v tomto případě je nutné lišit význam "místo" (bude se vyskytovat méně často) a "instituce" - v případě personifikace, resp. synekdochy (bude se vyskytovat výrazně častěji); |
| - apelativa jsou součástí NE pouze u místních názvů, nebo všude? P. Šidák říká jen u místních názvů, v Instrukcích jsou i příklady typu "kniha Babička". Znamená to, že mám anotovat všechna apelativa následovaná propriem (agentura Reuters, pivovar Radegast...)? s tím také souvisí otázka, zda se "funkce" skutečně neanotují ("český ministr školství, mladeže a tělovýchovy Ivan Pilip" . anotuji jen Ivan Pilip - jméno?) |
| * výrazy, jejichž součástí je proprium a apelativum. Tento problém je obtížný, záleží na (diskrétní) míře kolokace. Nicméně shodli jsme se na obecném pravidle, že tyto výrazy se značit NEBUDOU (substituční zkouška: lze říci nejen "kniha Babička", ale i "román Babička", "tisková kancelář Reuters" namísto "agentury Reuters" apod.); v případě toho minstra školství se značí toto zvlášť a I. Pilip jako jméno; |
| - co národy? "sudetští Němci, bosenští Srbové" - anotuji? jako co? |
| * sudetští Němci a bosenští Srbové jendoznačně ano. Nelze ovšem dát čistě lingvistické zdůvodnění. Shodli jsme se na tom, že tyto termíny mají jakýsi příznak (hisotriografického, kulturologického, sociologického apod.) termínu, a měly by proto být značeny (stejně jako např. "hřib dubový" nebo "elegické distichon"). - - Shodli jsme se na tom, že anotátor vychází iz obecného (P. Straňák říká intersubjektivního, já říkám "encyklopedického" ve smyslu U. Eca) ponětí: co je všeobecně známo jakožto termín, označuje se j. objekt (případ hřibu dubového apod.); v případě Mnichovské dohody je tedy primární fakt, že "všichni" "víme", že je to něco jedinečného, terminologizovaného, a až sekudnární fakt, že se píše s maiuskulí.\\ Anotátor se má tedy držet tohoto obecného povědomí; a i pokud - kdyby např. byl historick specializovaný na izraelsko-palestinské konflikty - věděl, že ta "izraelsko-p." smlouva je jedinčená, a tedy by se měla psát s maiuskulí (a je jen chyba, že tak psána není), a tedy by se měla značit, značit ji NEBUDE, neboť není součástí tohoto obecného povědomí. |
| - zkratky se neanotují, pokud jsou "jednoslovné" - co mám dělat se zkratkami autorů článků? v Instrukcích se sice píše, že anotovat, ale je mi to divné, jak mám vědět, čeho je to zkratka?) |
| * bod "5" záleží na stromech - vyřeší P. Straňák. |
| |
| [[oldlines|Starší pravidla]] (používaná do 23. 7. 2008). |