Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
external:lexemann:guidelines [2007/05/24 23:21] vimmrova |
external:lexemann:guidelines [2009/10/12 19:22] bejcek vzhledem k, na sklad, z mraku prset nebude |
====== Anotační instrukce ====== | ====== Anotační instrukce ====== |
| |
| ===== Pravidla ===== |
| |
==== Pravidla ==== | |
| |
== SemLex -- slovník víceslovných lexémů == | |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| ==== SemLex -- slovník víceslovných lexémů ==== |
* Vyhledávání | * Vyhledávání |
| - kliknout na Hledat, nebo stisknout S |
| - vyplnit "Základní tvar", nebo "Lemmatizovaný tvar" |
| - stisknout Enter (neklikat na Hledat) |
| - Pomocí tlačítek "P" a "N" (či pomocí Ctrl-p a Ctrl-n) vybrat z více možností tu požadovanou, nebo pomocí roletkového menu Základní tvar (nefunguje vždy dobře, viz ticket #79) |
* Přidávání do slovníku | * Přidávání do slovníku |
* nejde-li něco udělat, poznamenat to do "glosa" a označit třemi hvězdičkami (tedy ''%%***%%poznámka'') k dalšímu ručnímu posouzení | * nejde-li něco udělat, poznamenat to do "glosa" a označit třemi hvězdičkami (tedy ''%%***%%poznámka'') k dalšímu ručnímu posouzení |
* je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci | * je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci |
* Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''. | * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''. |
| * Pokud přidáváte položku zřetelně odvozenou od jiné, která už ve slovníku je, poznamenejte to opět do glosy jako ''%%***%%derived from: <ID číslo původní položky>''\\ později bude vyhledání přidáno přimo do programu (např. "zrakově postižený člověk" je odvozený od "zdravotně postižený člověk"). |
| * Pro frazémy neurčitého slovního druhu (jako např. "laicky řečeno" -- asi částice?) a větné frazémy (jako přísloví) zvolte jako PoS hodnotu "N/A". |
| * Je-li potřeba položku smazat, použijte ''%%***%%remove'' do glosy a případně připište důvod (vytvořeno omylem, duplicitní heslo, není frazémem, ...) |
| * Existuje-li heslo jak v singuláru, tak v plurálu (a není pro to důvod), je potřeba tímto způsobem jedno z nich smazat. V případech jako "cenný papír", "obchodní vztah" se smaže plurál (který není ničím jiným než více kusy singuláru). V případě jako "sportovní potřeby" se singulár prakticky nepoužívá, smaže se tedy ten. |
| * Synonymum -- založit jako novou položku ve slovníku, ideálně propojit se svým protějškem vyplněním okénka Synonyma (vepsat buď výraz, nebo ID synonymního protějšku v SemLexu). (Pokud anotátor ví, nebo později zjistí, že protějšek ve slovníku je, vyplní ID.) |
| * Homonymie -- v případě, že je potřeba založit druhé heslo se stejným "Základním tvarem", připište na jeho konec ":2", například "přímá volba :2". (Přímá volba se týká volby například presidenta lidem a také telefonní volby jedním tlačítkem.) |
| * Při vytváření lemmatisovaného tvaru od |
| * negovaného slova platí, že se předpona "ne-" odtrhává od slova vždy -- krom případů, kdy vzniklé slovo buď neexistuje, nebo není protikladem. Existuje-li tedy jasná dvojice protikladů tvořených pomocí "ne-", pište prosím jako lemma vždy tvar bez předpony.\\ nejasný -> jasný\\ nepřijít -> přijít\\ ...\\ ale:\\ nenechavý -> nenechavý (nechavý neexistuje)\\ nemocný -> nemocný (mocný má úplně jiný význam) |
| * výrazu s čárkou ("Ministerstvo školství**,** mládeže a tělovýchovy") se (zatím, pro konsistenci) čárka v lemmatisovaném tvaru také uvádí. |
| * Vybrané příklady: |
| * rozpočtová kapitola -- **ano** (ne každá kapitola lze říci takto s adjektivem)\\ Hypothesa: <html>Existuje-li spojení X<font size="-5">Adj</font>-Y<font size="-5">Subst</font> ("rozpočtová kapitola"), které lze obrátit na Y<font size="-5">Subst</font>-X<font size="-5">Subst</font> ("kapitola rozpočtu") s přibližně stejným významem, zatímco jiné podobné A<font size="-5">Subst</font>-B<font size="-5">Subst</font> ("kapitola zákona") na adjektivní formu převést nelze (*"zákonná kapitola"), je to dobrý důvod pro anotaci. (Případné další příklady a také protipříklady možno psát sem.)</html> |
| * diplomatická čtvrť, ekonomický náměstek, měnový výbor -- ano |
| * marketingová metoda, marketingová smlouva -- asi ne |
| * Grepl v Příruční mluvnici mluví o tom, že adjektivní spojení zastírá význam a jako příklad uvádí oblíbené knedlíky (bramborové vs. švestkové). To tedy svědčí pro to, že adjektivní varianta by se měla anotovat, neboť má zastřenější význam. |
| * imobilní občan -- **ne** (je to jako "občan, který nemůže chodit") |
| * veřejný objekt, bytový objekt -- **ano** |
| * přímá úměra, nepřímá úměra -- **ano** (obojí, není to protiklad; lemma "přímý úměra") |
| * schodišťová plošina, šikmá schodišťová plošina -- **ano** (obojí; "schodišťová plošina" (MWE) má často podobu "šikmé schodišťové plošiny" (MWE)) |
| * Položky ze SČFI nemají vyplněn PoS. Doplňujte ho, když takové slovníkové heslo použijete. |
| |
== Pojmenované entity == | |
- **v této fázi se zabýváme jen striktně víceslovnými NE: tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu.** | ==== Pojmenované entity ("NE") ==== |
--- | **v této fázi se zabýváme jen striktně víceslovnými NE:** tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu. Z toho důvodu neanotujeme ani jednoslovné zkratky víceslovných NE (např. ČSSD). (Pozor, KDU-ČSL má tři tektogramatické uzly, proto je (a všechny ostatní zkratky s pomlčkou, spojovníkem, či mezerou ("MFF UK")) chceme **anotovat** již v této fázi jako instituce). |
* TODO Sjednotit (zde i ve sem-ann-u) anglické a české názvy. Třeba person pro jméno žáby je poněkud matoucí. (podle mne není, jde o personifikaci --ps) | |
| Vnitřní struktura nás (prozatím) nezajímá, takže například "Astronomický ústav Univerzity Karlovy v Praze" anotujeme jako jednu jedinou instituci. |
| |
| <html><font color="red">V současné podobě jsou instrukce (zejména v oblasti apelativ) někdy až protichůdné. Neznajíce dobré řešení, zveřejňujeme je alespoň tak a řešení zkusíme zkonsultovat s prací O. Krůzy.</font></html> |
| |
| ---- |
| |
* **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly | * **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly |
* v případech jako "prezident V. Klaus" nebude 'prezident' anotován jako součást jména. Výraz je totiž do značné míry samostatný, jméno může být i vynecháno. Titul jako součást jména anotujeme jen v případech, kdy nemá samostatný význam, kdy o danou funkci v textu vůbec nejde. V těchto případech je titul typicky zapisován zkratkou. Jméno v těchto případech nemůže být elidováno. | * v případech jako "prezident V. Klaus" nebude 'prezident' anotován jako součást jména. Výraz je totiž do značné míry samostatný, jméno může být i vynecháno. Titul jako součást jména anotujeme jen v případech, kdy nemá samostatný význam, kdy o danou funkci v textu vůbec nejde. V těchto případech je titul typicky zapisován zkratkou. Jméno v těchto případech nemůže být elidováno. |
| * //profesor P. Novák// -- **jméno** je //P. Novák// |
| * //prof. Novák// -- **jméno** |
| * //princ z Walesu// -- nic (je to titul, takže to celé může být přidáno do **SemLex**u) |
| * //Železná lady// -- přidat do **SemLex**u a anotovat |
| * (víceslovné značky autorů pod článkem (pokud víceslovné existují) značit jako entity reprezentující jména osob) |
| * **instituce** |
| * //Dental, s.r.o.// celé **instituce**, ovšem pouze když je to zkratkou (jako prof. Novák) |
| * __veletrhy__ a __soutěže__ jsou **instituce** (podle dokumentu "Skupiny pojmenovaných entit") |
| |
* **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**. | * **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**. |
* Spadají sem tedy: | * Spadají sem tedy: |
- kulturní artefakty (názvy knih, filmů, festivalů apod., předpisů, zákonů, ...) | - kulturní artefakty (názvy knih, filmů, festivalů apod., předpisů, zákonů, ...) |
| * podtitul je součástí názvu (knihy) |
- názvy výrobků (Intel Pentium Pro) | - názvy výrobků (Intel Pentium Pro) |
- názvy měn (americký dolar)((tyto sem sice věcně spadají, ale jelikož jde o skupinu relativně omezenou, zavádějte je jako víceslovné lexémy do slovníku!)) | - názvy měn (americký dolar)((tyto sem sice věcně spadají, ale jelikož jde o skupinu relativně omezenou, zavádějte je jako víceslovné lexémy do slovníku!)) |
- biologické názvy (brouk patří do "čeledi X, druhu Y, skupiny Z") | - biologické názvy (brouk patří do "čeledi X, druhu Y, skupiny Z") |
* //ČNB Na Příkopech// -- tím je myšlena budova, nikoli instituce, tudíž je to **objekt** | * //ČNB Na Příkopech// -- tím je myšlena budova, nikoli instituce, tudíž je to **objekt** |
* **adresa**\\ problém hranice mezi **jméno**/**instituce** + **místo** a **adresa**\\ přesné pravidlo: **adresa musí obsahovat ulici a/nebo doplňující (ne-místní) údaj typu tel./PSČ/fax/e-mail**; jinak se anotuje každé zvlášť, tj. např. obvyklá forma //jméno a/nebo instituce, město// není dostatečně přesně určeno, aby to mohlo být považováno za adresu. Příklady: | * //2654 m n.m.//, //v tisíci metrech nad mořem// -- //"m n.m."// (i psaný slovy) je **objekt** |
| * //př. K.// -- **objekt** |
| * //Kč/hod.//, //korun za hodinu// -- **objekt** |
| |
| * **adresa**\\ problém hranice mezi **jméno**/**instituce** + **místo** a **adresa**\\ přesné pravidlo: **adresa musí obsahovat ulici a/nebo doplňující (ne-místní) údaj typu tel./PSČ/fax/e-mail**; jinak se anotuje každé zvlášť, tj. např. obvyklá forma //jméno a/nebo instituce, město// není dostatečně přesně určeno, aby to mohlo být považováno za adresu. Příklady: |
* //Petr Novák, ÚFAL// -- **jméno**, **instituce** | * //Petr Novák, ÚFAL// -- **jméno**, **instituce** |
* //Worchester & sons, New Haven, Connecticut// -- **instituce**, **místo** | * //Worchester & sons, New Haven, Connecticut// -- **instituce**, **místo** |
* //Petr Novák, ÚFAL, Malostranské náměstí 25// -- **adresa** | * //Petr Novák, ÚFAL, Malostranské náměstí 25// -- **adresa** |
* //Svoboda, 777 578 975// -- **adresa** | * //Svoboda, 777 578 975// -- **adresa** |
| * //kontakt: 777 578 975// -- v tomto případě je to celé **adresa**, neboť "kontakt" zde vlastně znamená "telefon" |
| * //kontakt: 777 578 975, e-mail pepa@ufal.cz, fax: 222333456// -- bez "kontakt:" je to **adresa** |
| * //č.ú.: 4328-483859392054/0303// -- celé **adresa** |
| * //jdu do galerie Václava Špály// -- **místo** |
| * //Galerie Václava Špály koupila obraz// -- **instituce**, protože je to personifikace |
| |
* **biblio** je pouze bibliografický údaj, čili něco strukturovaného\\ jméno knihy (stejně jako jméno filmu) je jen **objekt** (zadny **biblio**)\\ Kde je hranice? //Božena Němcová, Babička, str. 143// budeme posuzovat jak? (Kol. Šidák dostal pokyn označit jako **biblio** a poznamenat na papír s připomínkami pro nás) | * **biblio** je pouze bibliografický údaj, čili něco strukturovaného\\ jméno knihy (stejně jako jméno filmu) je jen **objekt** (zadny **biblio**)\\ Kde je hranice? //Božena Němcová, Babička, str. 143// budeme posuzovat jak? (Kol. Šidák dostal pokyn označit jako **biblio** a poznamenat na papír s připomínkami pro nás) |
* **X** slouží primárně pro nezařaditelné entity\\ prozatím také pro označování množství, neboť to dosud (TODO) nemá vlastní značku | * **X** slouží primárně pro nezařaditelné entity\\ prozatím také pro označování množství, neboť to dosud (TODO) nemá vlastní značku;\\ pomocí **X** se také anotují např. šachové koncovky |
* //100 -- 200 metrů čtverečních// -- **X**, **objekt** | * //100 -- 200 metrů čtverečních// -- **X**, **objekt** |
* //10 m// -- nic nic | * //10 m// -- nic nic |
* //od 10 do 18 let// -- **X** je "//od 10 do 18//", "//let//" je nic | * //od 10 do 18 let// -- **X** je "//od 10 do 18//", "//let//" je nic |
* //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic | * //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic |
| * //1. c7 Vd6+ 2. Kb5 Vd5+ 3. Kb4 Vd4+ 4. Kb3 Vd3+ 5. Kc2! Vd4! 6. c8V! Va4 7. Kb3// -- celé jako **X** jakožto šachová koncovka |
| * //pět milionů// -- **X** |
| * //3%//, //3-7%//, //pět a půl procenta// -- vše **X** |
| * **čas** anotujeme pouze v případě odpovědi na otázku "kdy", ne však na otázku "kolik" |
| * //devět sekund// -- nic (kolik) |
| * //pět let// -- nic (kolik) |
| * //20 hodin// -- udává-li období => nic; udává-li večerní čas => 20 by byl **čas**, ale je to jednoslovné => také nic |
| * //rok 1994// -- nic |
| * //únor 2002// -- **čas** |
| * //počátek září 1974// -- //"počátek"// neanotovat, zbytek je **čas** |
| * //60. léta// -- v zásadě ano, ale 60 je jednoslovné => nic |
| * //20. století// -- v zásadě ano, ale 20 je jednoslovné => nic |
| * //20 hodin 15 minut// -- celé **čas** |
| * //v 1. polovině 20. století// -- nic |
| * //léta 1968/9//, //v sezoně 1992/1993// -- obecně záleží na tom, zda je "1980/1" je tvořeno více t-uzly (lze ověřit označkováním jedničky a klávesou F5 si nechat obarvit, co vše to zasáhlo); v tomto případě jsou to tři uzly (lomítko má vlastní uzel), takže anotovat (//"léta"// a //"v sezoně"// se každopádně neanotuje) |
| * //8:20// -- je representováno třemi t-uzly, takže anotovat, **čas** |
| * //od září do dubna// -- nic, není to absolutní udání času (které září) |
| * **foreign** se použije až v případě, že nelze zařadit jinam -- buď jinam nepatří, nebo anotátor neví, o jakou entitu jde |
| * //ad hoc// -- **foreign** |
| * //The Jungle Book// -- **objekt**, protože anotátor ví, že je to kniha |
| |
| Některá **apelativa** budeme považovat za součást entity, většinu však ne. |
| Apelativa, která budeme anotovat spolu s entitou, jsou vesměs geografické výrazy, vždy tvoří součást názvu (vynechání lze pak považovat spíše za elipsu), určují typ entity. |
| Příklady: "ulice Politických vězňů", "náměstí Míru", "Staroměstské náměstí", "chrám sv. Víta", "Štefánikův most", "most Legií", "dům U třech slunců" |
| naopak neanotujeme apelativa "kniha Babička", kapela, turnaj, společnost apod. (nejsou-li s jistotou součástí názvu -- v tom případě by měla být psána s velkým písmenem). |
| * //Univerzita Karlova v Praze// -- anotovat celé |
| * //Washington, DC// -- celé |
| * //Washington, USA// -- celé |
| * //České Budějovice, Česká republika// -- celé |
| * //Matematicko-fyzikální fakulta, Univerzita Karlova v Praze// -- celé |
| * //Filozofická fakulta v Českých Budějovicích// -- zvlášť fakultu, zvlášť město |
| * //kapela Doors// -- nic (anotovalo by se jen jednoslovné //Doors//) |
| * //turnaj U.S. Open// -- jen U.S. Open jako objekt |
| * //chrám sv. Václava// -- celé |
| * //pan Novák// -- nic |
| * //ulice pplk. Sochora// -- celé |
| * //Staroměstské náměstí// i //náměstí Míru// -- celé |
| * //zákon o daních// -- celé (pokud je to název jednoho konkrétního zákona) |
| * //podle zákona 1456/18, Sb.// -- bez //"podle"// celé |
| |
==== K nástroji sem-ann ==== | Pojmenovanou entitou **není** nic z následujících: |
| * //americká centrální banka// -- je to sice označení jedné konkrétní banky, ale ne její název (stejně jako //nejhlubší bod na Zemi// je Mariánský příkop); //centrální banka// patří do SemLexu |
| * //vládní návrh zákona o státní sociální podpoře// -- pokud to nebude název jednoho konkrétního zákona (pak by to mělo být s velkým 'Z'), není to žádná pojmenovaná entita; co se týče frazémů, je to povětšinou komposicionální, možná je //státní sociální podpora// termín (nutno pro každý konkrétní případ vyhledat, vygooglit), který by se měl uložit do SemLexu |
| |
* Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. | |
* Program lze spouštět také například takto: ''./sem-ann.pl anot/lnd94103_1*.t.gz anot/lnd94103_002.t.gz''. Pak program po startu automaticky otevře soubor ''lnd94103_100.t.gz''. Po dokončení práce a uložení souboru klávesa F8 otevře soubor ''lnd94103_101.t.gz'' atd. až předposlední soubor bude ''lnd94103_199.t.gz'' a poslední ''lnd94103_002.t.gz''. Klávesa F7 umožňuje naopak vracet se k předchozímu vyjmenovanému souboru. | |
| |
| |
| |
| |
| |
| |
| |
| |
| ==== Frazémy ==== |
| |
| Vždy anotovat **doslova** přesně tou položkou slovníku, která je použita v textu. |
| * tedy "ministerstvo privatizace" je jiné než "privatizační ministerstvo" |
| * vyjímku tvoří: |
| * zdrobněliny: "rodinný dům" lze použít i pro anotaci "rodinného d//omku//" |
| * přechýlení: "ministr vnitra" lze použít i pro "ministr//yni// vnitra" |
| * elipsa: viz níže |
| * pravopisné varianty: "kuponová privatisace" lze použít pro "kup//ó//nová privati//z//ace" |
| * vidové dvojice: "zneuž//ití// pravomoci veřejného činitele" lze anotovat pomocí "zneužívání pr. veř. čin." |
| * překlep/chyba autora textu: "ministr //průmyslu a obchodu//" se anotuje "ministrem obchodu a průmyslu", ačkoli autor prohodil pořadí slov |
| * zkratky: "kriminální film" se použije také pro "//krim.// film"; podobně "dok. film"... |
| * (Pokud jsem na něco zapomněl, připište to, nebo se zeptejte. --EB) |
| \\ |
| |
| Příklady toho, co už **není frazém**: |
| * moskevský čas |
| * antisemitská politika, rasistická politika |
| * hlavní město Rakouska (jen "hlavní město") |
| * poslední den (ze SČFI -- zrušit) |
| * principy trhu, tržní principy |
| * //sekundární předložky:// vzhledem k, s ohledem na, ... (již předanotované sek. předl. mazat) |
| \\ |
| |
| Příklady **frazémů**: |
| * velkosériová výroba -- je to sporné, dohodli jsme se, že ano |
| * sedmá třída |
| * ?? speciální efekt? |
| * zapsat se zlatým písmem |
| * na sklad -- adverbium |
| * z tohoto mraku pršet nemusí (případně jako %%***%%derived, pokud má anotátor pocit, že originál zní jinak, třeba "...pršet nebude") |
| \\ |
| |
| Příklady **nekomposicionálních** frazémů: |
| * vládní návrh |
| \\ |
| |
| **Eliptické** užití frazému se anotuje původním frazémem, tedy například "zrakově postižený" je anotováno slovníkovou položkou "zrakově postižený člověk". Podobně "první světová" anotováno "první světovou válkou". |
| * pokud po elipse zbyde jedno slovo, neanotuje se; (tj. článek o "Ministerstvu průmyslu a obchodu" se slovem "ministerstvo" na každém řádku, stejně jako o "fotbalové lize" se slovy "liga" bude mít anotovaný pouze ten plný víceslovný výraz.) |
| * výjimkou je //koordinace// typu "první a druhá světová válka", kde slovo "první" je elipsou za "první světová válka" |
| * "česká inspekce" -- zvláštnost stylu autora článku; s malým 'č' ve významu "Česká inspekce životního prostředí" (což celé je pojmenovaná entita, tedy není v SemLexu);\\ řešení: založit heslo "Česká inspekce životního prostředí", poznamenat k němu, že je to pojmenovaná entita instituce, a pak jím anotovat "českou inspekci" |
| \\ |
| |
| **Parafráze a variace** typu //"Zloději nechodí po horách, ale po domácnostech"// se vloží jako nová položka do SemLexu s poznámkou "derived" v Glosse, která odkazuje na původní //"Neštěstí nechodí po horách, ale po lidech"//. (Pokud neexistuje, tak samozřejmě nejprve ho vyrobit, pak vyrobit odvozenou variantu s odkazem na něj.) Podobně //"Ne Rudé, ale Šedé právo"//; nový význam spojení //"Sarajevský atentát"// |
| |
| **Citáty** a ustálené věty typu //"Hvězdné nebe nad námi a mravní zákon v nás"// či //"Čo bolo, to bolo, terazky som majorom"// anotovat a zakládat pro ně ve slovníku hesla. (Do oblasti našeho zájmu spadají jen tím, jak jsou ustrnulá a nesubstituovatelná apod., nicméně jiná anotace je také nezachycuje.) Obměny citátů stejně jako obměny přísloví výše. |
| |
| V **idiomatických, leč jednoslovných** slovesných konstrukcích typu //"zapsat si další asistenci"//, či //"kéž by to tam padalo"// lze variovat vše krom slovesa. Jsou už podchycena PDT-VALLEXem a my je **neanotujeme**. |
| |
| === problematické === |
| |
| **zákony:** pridavna slova jako "vladni" a "novela" neanotovat. |
| Problem je, jak (a ktery) zakon anotovat. Vubec, jako NE, SemLexem. |
| |
| * Pridrzet se pravidla o objektech [[guidelines#pojmenovane-entity-ne|vyse]]: tedy nazvy, ktere oznacuji jeden konkretni zakon, anotovat jako NE. (Tomu je vzdy kvivalentni vlozit ho do slovniku a vyznacit, ze je to ''%%***%%objekt''.) |
| * V druhe rade se ridit poznámkou slecny Stastne,((slovnik je plny souslovi, ktera se prinejmensim zdaji byt kompozicionalni, ovsem nelze na nich provest substitucni test *ministerstvo peneznich prostredku *zakon o odvodech statu (=zakon o danich) )) totiz zkontrolovat substituovatelnost (prip. komposicionalitu). To se bude tykat asi i delsich zakonu. [Pozor, zda nahodou neni frazemem jen cast celeho vyrazu. Souhlasim se "*zakonem o odvodech statu", ale domnivam se, ze "*zakon o pridavcich na nezletile" nam nerika nic o zakone, ale jen o "pridavcich na deti".] |
| * Pokud ani jedno neplati, nevidim nutnost to anotovat. (Leda byste to chtely mit ve slovníku, stejne jako ostatni zakony, ktere uz v nem jsou.) V techto pripadech bych to nechal na vasem uvazeni. Anotujte konsistentne a pripadne (casem) zformulujte pravidlo, kterym se ridite. |
| |
| |
| **trestné činy:** Spojeni "trestny cin" asi neni (na rozdil od zakona) soucasti nazvu, viz treba [[http://zakony.kurzy.cz/140-1961-trestni-zakon/cast-2-hlava-3/|Zneužívání pravomoci veřejného činitele]] |
| Anotujte tedy "trestny cin" zvlast a v pripade, ze nasleduje neco, co do slovniku dat chcete, tak to tam pridejte samostatne, tedy treba to "zneuziti pravomoci verejneho cinitele". Tedy: |
| * "trestny cin vrazdy" -- anotovat jen "trestny cin" |
| * "trestny cin zneuziti pravomoci verejneho cinitele" -- zvlast 2 MWE |
| * "trestny cin pokusu o vrazdu" -- pouze "trestny cin" (pokud se vam na rozdil od nas nezda "pokus o vrazdu" nejak zajimavy) |
| * "obvinen z pokusu o vrazdu" -- nic |
| |
| ===== K nástroji sem-ann ===== |
| |
| * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. |
| * Program lze spouštět také například takto: ''./sem-ann.pl anot/lnd94103_1*.t.gz anot/lnd94103_002.t.gz''. Pak program po startu automaticky otevře soubor ''lnd94103_100.t.gz''. Po dokončení práce a uložení souboru klávesa F8 otevře soubor ''lnd94103_101.t.gz'' atd. až předposlední soubor bude ''lnd94103_199.t.gz'' a poslední ''lnd94103_002.t.gz''. Klávesa F7 umožňuje naopak vracet se k předchozímu vyjmenovanému souboru. |
| |
=== Některé užitečné klávesy === | === Některé užitečné klávesy === |
| |
| |
==== Dotazy, nejasnosti === | |
| |
| |
| |
| |
| ===== Dotazy, nejasnosti ==== |
Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních: | Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních: |
| |
* Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/*dopravní hřích) a co není odlučitelné (*dopravní závažný přestupek). | * Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/*dopravní hřích) a co není odlučitelné (*dopravní závažný přestupek). |
- obojí je obvyklé, ale když alespoň jedno neplatí, neznamená to ještě, že o frazém v nějakém smyslu nejde. | - obojí je obvyklé, ale když alespoň jedno neplatí, neznamená to ještě, že o frazém v nějakém smyslu nejde. |
- Máme dost různých kreativních užití ("ne Rudé, ale Šedé právo"; nový význam spojení "Sarajevský atentát"), některé jsou pak časem více či méně lexikalizované. Otázka je, jak "ad hoc" frazémy značit.Prozatím navrhuji zanést jej do Semlexu a do pozn. uvést od jakého frazému je odvozen, pokud je to zřejmé (je-li ten původní kiž v SemLexu, tak ID). | - <del>Máme dost různých kreativních užití ("ne Rudé, ale Šedé právo"; nový význam spojení "Sarajevský atentát"), některé jsou pak časem více či méně lexikalizované. Otázka je, jak "ad hoc" frazémy značit.Prozatím navrhuji zanést jej do Semlexu a do pozn. uvést od jakého frazému je odvozen, pokud je to zřejmé (je-li ten původní kiž v SemLexu, tak ID).</del> |
- //neodlučitelnost// je také sporná. Zaprvé je možná (a běžná) elipsa (Sarajevský atentát -> Sarajevo). To ale není odloučení. Ovšem i rozvití části frazému je ale možné. Co možné není, je porušení přímé závislosti všech částí frazému, neboli rozdělení (přerušení) jeho syntaktického stromu jiným uzlem. | - //neodlučitelnost// je také sporná. Zaprvé je možná (a běžná) elipsa (Sarajevský atentát -> Sarajevo). To ale není odloučení. Ovšem i rozvití části frazému je ale možné. Co možné není, je porušení přímé závislosti všech částí frazému, neboli rozdělení (přerušení) jeho syntaktického stromu jiným uzlem. |
* Apelativa jako "ulice", "náměstí" (např. ve spojení "Staroměstské náměstí" i "náměstí Míru") apod. jsou součástí pojmenovaných entit | * <del>Apelativa jako "ulice", "náměstí" (např. ve spojení "Staroměstské náměstí" i "náměstí Míru") apod. jsou součástí pojmenovaných entit</del> |
- ano --ps | - <del>ano --ps</del> |
* slovo "zákon" je součástí názvu (zákon o daních, podle zákona 1456/18, Sb.) | * <del>slovo "zákon" je součástí názvu (zákon o daních, podle zákona 1456/18, Sb.)</del> |
- souhlas. --ps | - <del>souhlas. --ps</del> |
* NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, je to INSTITUCE (GVŠ koupila obraz x jdu do GVŠ) | * <del>NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, je to INSTITUCE (GVŠ koupila obraz x jdu do GVŠ)</del> |
- ano, přesně tak si to představuji. --ps | - <del>ano, přesně tak si to představuji. --ps</del> |
* devět sekund, pět let, 20 hodin – jde o čas ?(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat? | * <del>devět sekund, pět let, 20 hodin – jde o čas ?</del>(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat?\\ <del>Nemůžu najít odpověď na tuto otázku -- je někde jinde? Další příklad je "únor 2002" a ten snad anotovat chceme. Ovšem stejně jako všechny předchozí příklady sestává ze dvou (a více) tektogramatických uzlů, což snad je naše kritérium... --EB</del> |
* Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů ("výkonná rada oddělení obvodního úřadu pro míru nezaměstnanosti") | * Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů ("výkonná rada oddělení obvodního úřadu pro míru nezaměstnanosti") |
- //variabilní//: zavést "dostat měsíců natvrdo" apod. vzhledem k syntakt. struktuře se najdou všechny výskyty. Ovšem do poznámky uvést, že to rozvití "měsíců" je obligatorní. Horší je, že zde může variovat i měsíců/let a "natvrdo a podmíněně". Prozatím nezbyde, než to vše mít jako samostatná hesla SemLexu, ale optimální to není. MOC DOBRÝ PŘÍKLAD. DÍKY. --ps | - //variabilní//: zavést "dostat měsíců natvrdo" apod. vzhledem k syntakt. struktuře se najdou všechny výskyty. Ovšem do poznámky uvést, že to rozvití "měsíců" je obligatorní. Horší je, že zde může variovat i měsíců/let a "natvrdo a podmíněně". Prozatím nezbyde, než to vše mít jako samostatná hesla SemLexu, ale optimální to není. MOC DOBRÝ PŘÍKLAD. DÍKY. --ps |
- //rozvíjitelné//: označit celek, zavést jej do SemLexu. Jeho frazeologické části jsou zajímavý problém do budoucna, ale zcela samostatný. Lexikografická záležitost. Alespoň dokud nenajdete lepší příklad :-) | - //rozvíjitelné//: označit celek, zavést jej do SemLexu. Jeho frazeologické části jsou zajímavý problém do budoucna, ale zcela samostatný. Lexikografická záležitost. Alespoň dokud nenajdete lepší příklad :-) |
| |
PŠ+PV | * Případy jako //první vlna//, //druhá vlna// aj. kazdý značíme jako frazém, těch vln asi není až tak hodně, max. 10. |
| * Ve frazémech typu //přešla mne chut'// značíme jen //přejít chut'//. |
| |
| |
| ==PŠ+PV== |
| |
Ještě technický problém: občas některé lexémy naprosto nevysvětlitelně nelze označit a program hlásí, že "vybraný text nemá smysl anotovat"(přitom to jsou ale výrazy, které prokazatelně smysl anotovat má), několikrát se to stalo i u celého souboru. | Další otázky: |
| 1) jak znacit vyrazy jako: vládní návrh zákona o sociální podpoře |
| jmena zakonu obecne znacim jako objekty, ale tady se zaroven krizi: vladni navrh, navrh zakona, zakon o socialni podpore a socialni podpora - je v takovych pripadech lepsi zadat cele heslo do slovniku s tim, ze bude slovnik velmi rychle narustat, nebo vyraz rozkouskovat a v tom pripade jak? |
| 2) jak anotovat <del>fakulty a názvy univerzit,</del> obory apod? |
| 3) <del>jak znacit parafraze a nekonecne mnozstvi variaci typu "Zloději nechodí po horách, ale po domácnostech" (pv)</del> |
| |
PŠ+PV | [[oldlines|Starší pravidla]] (používaná do 23. 7. 2008). |