This is an old revision of the document!
Table of Contents
Anotační instrukce
Pravidla
SemLex -- slovník víceslovných lexémů
- Vyhledávání
- Přidávání do slovníku
- nejde-li něco udělat, poznamenat to do “glosa” a označit třemi hvězdičkami (tedy
***poznámka
) k dalšímu ručnímu posouzení - je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci
- Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:
***(jméno)
***(instituce)
***(místo)
***(objekt)
***(foreign)
.
- Pokud přidáváte položku zřetelně odvozenou od jiné, která už ve slovníku je, poznamenejte to opět do glosy jako
***derived from: <ID číslo původní položky>
později bude vyhledání přidáno přimo do programu (např. “zrakově postižený člověk” je odvozený od “zdravotně postižený člověk”). - Pro frazémy neurčitého slovního druhu (jako např. “laicky řečeno” – asi částice?) a větné frazémy (jako přísloví) bude možno v příští verzi vybrat N/A.
- Je-li potřeba položku smazat, použijte
***remove
a případně připište důvod (vytvořeno omylem, duplicitní heslo, není frazémem, …) - Synonymum – založit jako novou položku ve slovníku, ideálně propojit se svým protějškem vyplněním okénka Synonyma (vepsat buď výraz, nebo ID synonymního protějšku v SemLexu).
Pojmenované entity ("NE")
v této fázi se zabýváme jen striktně víceslovnými NE: tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu. Z toho důvodu neanotujeme ani jednoslovné zkratky víceslovných NE (např. ČSSD). (Pozor, KDU-ČSL má tři tektogramatické uzly, proto je (a všechny ostatní zkratky s pomlčkou, spojovníkem, či mezerou (“MFF UK”)) chceme anotovat již v této fázi jako instituce).
Vnitřní struktura nás (prozatím) nezajímá, takže například “Astronomický ústav Univerzity Karlovy v Praze” anotujeme jako jednu jedinou instituci.
V současné podobě jsou instrukce (zejména v oblasti apelativ) někdy až protichůdné. Neznajíce dobré řešení, zveřejňujeme je alespoň tak a řešení zkusíme zkonsultovat s prací O. Krůzy.
- jméno jsou jména pouze osob a zvířat
ke jménu osoby patří i tituly- v případech jako “prezident V. Klaus” nebude 'prezident' anotován jako součást jména. Výraz je totiž do značné míry samostatný, jméno může být i vynecháno. Titul jako součást jména anotujeme jen v případech, kdy nemá samostatný význam, kdy o danou funkci v textu vůbec nejde. V těchto případech je titul typicky zapisován zkratkou. Jméno v těchto případech nemůže být elidováno.
- profesor P. Novák – jméno je P. Novák
- prof. Novák – jméno
- princ z Walesu – nic (je to titul, takže to celé může být přidáno do SemLexu)
- Železná lady – přidat do SemLexu a anotovat
- (víceslovné značky autorů pod článkem (pokud víceslovné existují) značit jako entity reprezentující jména osob)
- objekt jsou pojmenované věci, které nejsou lidi, zvířata, instituce a místní názvy
viz zmínku u biblio.- Spadají sem tedy:
- ČNB Na Příkopech – tím je myšlena budova, nikoli instituce, tudíž je to objekt
- adresa
problém hranice mezi jméno/instituce + místo a adresa
přesné pravidlo: adresa musí obsahovat ulici a/nebo doplňující (ne-místní) údaj typu tel./PSČ/fax/e-mail; jinak se anotuje každé zvlášť, tj. např. obvyklá forma jméno a/nebo instituce, město není dostatečně přesně určeno, aby to mohlo být považováno za adresu. Příklady:- Petr Novák, ÚFAL – jméno, instituce
- Worchester & sons, New Haven, Connecticut – instituce, místo
- ČNB Na Příkopech – objekt, místo (viz objekt)
- Pavel Přibyl, Nábřežní 35, Plzeň – adresa
- ÚFAL, Malostranské náměstí 25, Praha 1 – adresa
- Petr Novák, ÚFAL, Malostranské náměstí 25 – adresa
- Svoboda, 777 578 975 – adresa
- kontakt: 777 578 975 – v tomto případě je to celé adresa, neboť “kontakt” zde vlastně znamená “telefon”
- kontakt: 777 578 975, e-mail pepa@ufal.cz, fax: 222333456 – bez “kontakt:” je to adresa
- č.ú.: 4328-483859392054/0303 – celé adresa
- jdu do galerie Václava Špály – místo
- Galerie Václava Špály koupila obraz – instituce, protože je to personifikace
- biblio je pouze bibliografický údaj, čili něco strukturovaného
jméno knihy (stejně jako jméno filmu) je jen objekt (zadny biblio)
Kde je hranice? Božena Němcová, Babička, str. 143 budeme posuzovat jak? (Kol. Šidák dostal pokyn označit jako biblio a poznamenat na papír s připomínkami pro nás) - X slouží primárně pro nezařaditelné entity
prozatím také pro označování množství, neboť to dosud (TODO) nemá vlastní značku;
pomocí X se také anotují např. šachové koncovky- 100 – 200 metrů čtverečních – X, objekt
- 10 m – nic nic
- od 10 do 18 let – X je “od 10 do 18”, “let” je nic
- mezi sedadly 30 a 40 – X je “mezi 30 a 40”, “sedadly” není nic
- 1. c7 Vd6+ 2. Kb5 Vd5+ 3. Kb4 Vd4+ 4. Kb3 Vd3+ 5. Kc2! Vd4! 6. c8V! Va4 7. Kb3 – celé jako X jakožto šachová koncovka
- pět milionů – X
- 3%, 3-7% – obojí X
- čas anotujeme pouze v případě odpovědi na otázku “kdy”, ne však na otázku “kolik”
- devět sekund – nic (kolik)
- pět let – nic (kolik)
- 20 hodin – udává-li období ⇒ nic; udává-li večerní čas ⇒ 20 by byl čas, ale je to jednoslovné ⇒ také nic
- rok 1994 – nic
- únor 2002 – čas
- počátek září 1974 – “počátek” neanotovat, zbytek je čas
- 60. léta – v zásadě ano, ale 60 je jednoslovné ⇒ nic
- 20. století – v zásadě ano, ale 20 je jednoslovné ⇒ nic
- 20 hodin 15 minut – celé čas
- v 1. polovině 20. století – nic
- léta 1980/1 –
- 8:20 – je representováno třemi t-uzly, takže anotovat, čas
Některá apelativa budeme považovat za součást entity, většinu však ne.
Apelativa, která budeme anotovat spolu s entitou, jsou vesměs geografické výrazy, vždy tvoří součást názvu (vynechání lze pak považovat spíše za elipsu), určují typ entity.
Příklady: “ulice Politických vězňů”, “náměstí Míru”, “Staroměstské náměstí”, “chrám sv. Víta”, “Štefánikův most”, “most Legií”, “dům U třech slunců”
naopak neanotujeme apelativa “kniha Babička”, kapela, turnaj, společnost apod. (nejsou-li s jistotou součástí názvu – v tom případě by měla být psána s velkým písmenem).
- Univerzita Karlova v Praze – anotovat celé
- Washington, DC – celé
- Washington, USA – celé
- České Budějovice, Česká republika – celé
- Matematicko-fyzikální fakulta, Univerzita Karlova v Praze – celé
- Filozofická fakulta v Českých Budějovicích – zvlášť fakultu, zvlášť město
- kapela Doors – nic (anotovalo by se jen jednoslovné Doors)
- turnaj U.S. Open – jen U.S. Open jako objekt
- chrám sv. Václava – celé
- pan Novák – nic
- ulice pplk. Sochora – celé
- Staroměstské náměstí i náměstí Míru – celé
- zákon o daních – celé (pokud je to název jednoho konkrétního zákona)
- podle zákona 1456/18, Sb. – bez “podle” celé
Pojmenovanou entitou není nic z následujících:
- americká centrální banka – je to sice označení jedné konkrétní banky, ale ne její název (stejně jako nejhlubší bod na Zemi je Mariánský příkop); centrální banka patří do !SemLexu
- vládní návrh zákona o státní sociální podpoře – pokud to nebude název jednoho konkrétního zákona (pak by to mělo být s velkým 'Z'), není to žádná pojmenovaná entita; co se týče frazémů, je to povětšinou komposicionální, možná je státní sociální podpora termín (nutno pro každý konkrétní případ vyhledat, vygooglit), který by se měl uložit do SemLexu
Frazémy
Příklady toho, co už není frazém:
- moskevský čas
- antisemitská politika, rasistická politika
Příklady nekomposicionálních frazémů:
- vládní návrh
Eliptické užití frazému se anotuje původním frazémem, tedy například “zrakově postižený” je anotováno slovníkovou položkou “zrakově postižený člověk”.
Parafráze a variace typu “Zloději nechodí po horách, ale po domácnostech” se vloží jako nová položka do SemLexu s poznámkou “derived” v Glosse, která odkazuje na původní “Neštěstí nechodí po horách, ale po lidech”. (Pokud neexistuje, tak samozřejmě nejprve ho vyrobit, pak vyrobit odvozenou variantu s odkazem na něj.) Podobně “Ne Rudé, ale Šedé právo”; nový význam spojení “Sarajevský atentát”
K nástroji sem-ann
- Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen.
- Program lze spouštět také například takto:
./sem-ann.pl anot/lnd94103_1*.t.gz anot/lnd94103_002.t.gz
. Pak program po startu automaticky otevře souborlnd94103_100.t.gz
. Po dokončení práce a uložení souboru klávesa F8 otevře souborlnd94103_101.t.gz
atd. až předposlední soubor budelnd94103_199.t.gz
a poslednílnd94103_002.t.gz
. Klávesa F7 umožňuje naopak vracet se k předchozímu vyjmenovanému souboru.
Některé užitečné klávesy
Ctrl-u | Undo | u jako undo |
Ctrl-y | Redo | y je vedle u |
F5 | Refresh textu a přebarvení | dle browserů |
F7 | Previous file | od revize 94 |
F8 | Next file | od revize 94 |
Dotazy, nejasnosti
Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních:
- Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/*dopravní hřích) a co není odlučitelné (*dopravní závažný přestupek).
- obojí je obvyklé, ale když alespoň jedno neplatí, neznamená to ještě, že o frazém v nějakém smyslu nejde.
Máme dost různých kreativních užití (“ne Rudé, ale Šedé právo”; nový význam spojení “Sarajevský atentát”), některé jsou pak časem více či méně lexikalizované. Otázka je, jak “ad hoc” frazémy značit.Prozatím navrhuji zanést jej do Semlexu a do pozn. uvést od jakého frazému je odvozen, pokud je to zřejmé (je-li ten původní kiž v SemLexu, tak ID).- neodlučitelnost je také sporná. Zaprvé je možná (a běžná) elipsa (Sarajevský atentát → Sarajevo). To ale není odloučení. Ovšem i rozvití části frazému je ale možné. Co možné není, je porušení přímé závislosti všech částí frazému, neboli rozdělení (přerušení) jeho syntaktického stromu jiným uzlem.
Apelativa jako “ulice”, “náměstí” (např. ve spojení “Staroměstské náměstí” i “náměstí Míru”) apod. jsou součástí pojmenovaných entitano –ps
slovo “zákon” je součástí názvu (zákon o daních, podle zákona 1456/18, Sb.)souhlas. –ps
NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, je to INSTITUCE (GVŠ koupila obraz x jdu do GVŠ)ano, přesně tak si to představuji. –ps
devět sekund, pět let, 20 hodin – jde o čas ?(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat?
Nemůžu najít odpověď na tuto otázku – je někde jinde? Další příklad je “únor 2002” a ten snad anotovat chceme. Ovšem stejně jako všechny předchozí příklady sestává ze dvou (a více) tektogramatických uzlů, což snad je naše kritérium… –EB- Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů (“výkonná rada oddělení obvodního úřadu pro míru nezaměstnanosti”)
- variabilní: zavést “dostat měsíců natvrdo” apod. vzhledem k syntakt. struktuře se najdou všechny výskyty. Ovšem do poznámky uvést, že to rozvití “měsíců” je obligatorní. Horší je, že zde může variovat i měsíců/let a “natvrdo a podmíněně”. Prozatím nezbyde, než to vše mít jako samostatná hesla SemLexu, ale optimální to není. MOC DOBRÝ PŘÍKLAD. DÍKY. –ps
- rozvíjitelné: označit celek, zavést jej do SemLexu. Jeho frazeologické části jsou zajímavý problém do budoucna, ale zcela samostatný. Lexikografická záležitost. Alespoň dokud nenajdete lepší příklad
- Případy jako první vlna, druhá vlna aj. kazdý značíme jako frazém, těch vln asi není až tak hodně, max. 10.
- Ve frazémech typu přešla mne chut' značíme jen přejít chut'.
PŠ+PV
Další otázky:
1) jak znacit vyrazy jako: vládní návrh zákona o sociální podpoře
jmena zakonu obecne znacim jako objekty, ale tady se zaroven krizi: vladni navrh, navrh zakona, zakon o socialni podpore a socialni podpora - je v takovych pripadech lepsi zadat cele heslo do slovniku s tim, ze bude slovnik velmi rychle narustat, nebo vyraz rozkouskovat a v tom pripade jak?
2) jak anotovat fakulty a názvy univerzit, obory apod?
3) jak znacit parafraze a nekonecne mnozstvi variaci typu “Zloději nechodí po horách, ale po domácnostech” (pv)
Starší pravidla (používaná do 23. 7. 2008).