Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
external:lexemann:guidelines [2007/04/19 12:36] vimmrova |
external:lexemann:guidelines [2008/08/25 12:21] bejcek příklady apelativ |
====== Anotační instrukce ====== | ====== Anotační instrukce ====== |
| |
| |
| |
==== Pravidla ==== | ==== Pravidla ==== |
| |
== SemLex -- slovník víceslovných lexémů == | === SemLex -- slovník víceslovných lexémů === |
* Vyhledávání | * Vyhledávání |
* Přidávání do slovníku | * Přidávání do slovníku |
* je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci | * je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci |
* Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''. | * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''. |
| * Pokud přidáváte položku zřetelně odvozenou od jiné, která už ve slovníku je, poznamenejte to opět do glosy jako ''%%***%%derived from: <ID číslo původní položky>''\\ později bude vyhledání přidáno přimo do programu (např. "zrakově postižený člověk" je odvozený od "zdravotně postižený člověk"). |
| * Pro frazémy neurčitého slovního druhu (jako např. "laicky řečeno" -- asi částice?) a větné frazémy (jako přísloví) bude možno v příští verzi vybrat N/A. |
| * Je-li potřeba položku smazat, použijte ''%%***%%remove'' a případně připište důvod (vytvořeno omylem, duplicitní heslo, není frazémem, ...) |
| |
== Pojmenované entity == | === Pojmenované entity ("NE") === |
- **v této fázi se zabýváme jen striktně víceslovnými NE: tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu.** | **v této fázi se zabýváme jen striktně víceslovnými NE:** tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu. Z toho důvodu neanotujeme ani jednoslovné zkratky víceslovných NE (např. ČSSD). (Pozor, KDU-ČSL má tři tektogramatické uzly, proto je (a všechny ostatní zkratky s pomlčkou, spojovníkem, či mezerou ("MFF UK")) chceme **anotovat** již v této fázi jako instituce). |
--- | |
* TODO Sjednotit (zde i ve sem-ann-u) anglické a české názvy. Třeba person pro jméno žáby je poněkud matoucí. (podle mne není, jde o personifikaci --ps) | Vnitřní struktura nás (prozatím) nezajímá, takže například "Astronomický ústav Univerzity Karlovy v Praze" anotujeme jako jednu jedinou instituci. |
| |
| <html><font color="red">V současné podobě jsou instrukce (zejména v oblasti apelativ) někdy až protichůdné. Neznajíce dobré řešení, zveřejňujeme je alespoň tak a řešení zkusíme zkonsultovat s prací O. Krůzy.</font></html> |
| |
| ---- |
| |
* **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly | * **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly |
* v případech jako "prezident V. Klaus" nebude 'prezident' anotován jako součást jména. Výraz je totiž do značné míry samostatný, jméno může být i vynecháno. Titul jako součást jména anotujeme jen v případech, kdy nemá samostatný význam, kdy o danou funkci v textu vůbec nejde. V těchto případech je titul typicky zapisován zkratkou. Jméno v těchto případech nemůže být elidováno. | * v případech jako "prezident V. Klaus" nebude 'prezident' anotován jako součást jména. Výraz je totiž do značné míry samostatný, jméno může být i vynecháno. Titul jako součást jména anotujeme jen v případech, kdy nemá samostatný význam, kdy o danou funkci v textu vůbec nejde. V těchto případech je titul typicky zapisován zkratkou. Jméno v těchto případech nemůže být elidováno. |
| * //profesor P. Novák// -- **jméno** je //P. Novák// |
| * //prof. Novák// -- **jméno** |
| * //princ z Walesu// -- nic (je to titul, takže to celé může být přidáno do **SemLex**u) |
| * //Železná lady// -- přidat do **SemLex**u a anotovat |
| |
* **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**. | * **objekt** jsou __pojmenované__ věci, které nejsou lidi, zvířata, instituce a místní názvy\\ viz zmínku u **biblio**. |
* //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic | * //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic |
| |
| Všechna **apelativa** budeme považovat za součást entity. Hlavním důvodem je, že určují její typ. (Příklady: "ulice Politických vězňů", "náměstí Míru", "Staroměstské náměstí", "chrám sv. Víta", "kniha Babička".) |
| * //Univerzita Karlova v Praze// -- anotovat celé |
| * //Washington, DC// -- celé |
| * //Washington, USA// -- celé |
| * //České Budějovice, Česká republika// -- celé |
| * //Matematicko-fyzikální fakulta, Univerzita Karlova v Praze// -- celé |
| * //Filozofická fakulta v Českých Budějovicích// -- zvlášť fakultu, zvlášť město |
| * //kapela Doors// -- nic (anotovalo by se jen jednoslovné //Doors//) |
| * //turnaj U.S. Open// -- FIXME |
| * //// -- |
| * //// -- |
| * //// -- |
| |
| |
| === Frazémy === |
| |
| Příklady toho, co už není frazém: |
| * moskevský čas |
| * antisemitská politika, rasistická politika |
| |
| Eliptické užití frazému se anotuje původním frazémem, tedy například "zrakově postižený" je anotováno slovníkovou položkou "zrakově postižený člověk". |
| |
==== K nástroji sem-ann ==== | ==== K nástroji sem-ann ==== |
| |
* Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. | * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. |
* Program lze spouštět také například takto: ''./sem-ann.pl anot/lnd94103_1*.t.gz anot/lnd94103_002.t.gz''. Pak program po startu automaticky otevře soubor ''lnd94103_100.t.gz''. Po dokončení práce a uložení souboru klávesa F8 otevře soubor ''lnd94103_101.t.gz'' atd. až předposlední soubor bude ''lnd94103_199.t.gz'' a poslední ''lnd94103_002.t.gz''. Klávesa F7 umožňuje naopak vracet se k předchozímu vyjmenovanému souboru. | * Program lze spouštět také například takto: ''./sem-ann.pl anot/lnd94103_1*.t.gz anot/lnd94103_002.t.gz''. Pak program po startu automaticky otevře soubor ''lnd94103_100.t.gz''. Po dokončení práce a uložení souboru klávesa F8 otevře soubor ''lnd94103_101.t.gz'' atd. až předposlední soubor bude ''lnd94103_199.t.gz'' a poslední ''lnd94103_002.t.gz''. Klávesa F7 umožňuje naopak vracet se k předchozímu vyjmenovanému souboru. |
| |
=== Některé užitečné klávesy === | === Některé užitečné klávesy === |
|F7|Previous file|//od revize 94//| | |F7|Previous file|//od revize 94//| |
|F8|Next file|//od revize 94//| | |F8|Next file|//od revize 94//| |
| |
| |
| |
| |
| |
| |
| |
| |
Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních: | Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních: |
| |
* Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/*dopravní hřích) a co není odlučitelné (*dopravní závažný přestupek). | * Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/*dopravní hřích) a co není odlučitelné (*dopravní závažný přestupek). |
* Apelativa jako "ulice", "náměstí" (např. ve spojení "Staroměstské náměstí" i "náměstí Míru") apod. jsou součástí pojmenovaných entit | - obojí je obvyklé, ale když alespoň jedno neplatí, neznamená to ještě, že o frazém v nějakém smyslu nejde. |
*slovo "zákon" je součástí názvu (zákon o daních, podle zákona 1456/18, Sb.) | - Máme dost různých kreativních užití ("ne Rudé, ale Šedé právo"; nový význam spojení "Sarajevský atentát"), některé jsou pak časem více či méně lexikalizované. Otázka je, jak "ad hoc" frazémy značit.Prozatím navrhuji zanést jej do Semlexu a do pozn. uvést od jakého frazému je odvozen, pokud je to zřejmé (je-li ten původní kiž v SemLexu, tak ID). |
* NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, je to INSTITUCE (GVŠ koupila obraz x jdu do GVŠ) | - //neodlučitelnost// je také sporná. Zaprvé je možná (a běžná) elipsa (Sarajevský atentát -> Sarajevo). To ale není odloučení. Ovšem i rozvití části frazému je ale možné. Co možné není, je porušení přímé závislosti všech částí frazému, neboli rozdělení (přerušení) jeho syntaktického stromu jiným uzlem. |
* devět sekund, pět let, 20 hodin – jde o čas ?(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat? | * Apelativa jako "ulice", "náměstí" (např. ve spojení "Staroměstské náměstí" i "náměstí Míru") apod. jsou součástí pojmenovaných entit |
* Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů ("výkonná rada oddělení obvodního úřadu pro míru nezaměstnanosti") | - ano --ps |
| * slovo "zákon" je součástí názvu (zákon o daních, podle zákona 1456/18, Sb.) |
| - souhlas. --ps |
| * NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, je to INSTITUCE (GVŠ koupila obraz x jdu do GVŠ) |
| - ano, přesně tak si to představuji. --ps |
| * devět sekund, pět let, 20 hodin – jde o čas ?(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat?\\ Nemůžu najít odpověď na tuto otázku -- je někde jinde? Další příklad je "únor 2002" a ten snad anotovat chceme. Ovšem stejně jako všechny předchozí příklady sestává ze dvou (a více) tektogramatických uzlů, což snad je naše kritérium... --EB |
| * Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů ("výkonná rada oddělení obvodního úřadu pro míru nezaměstnanosti") |
| - //variabilní//: zavést "dostat měsíců natvrdo" apod. vzhledem k syntakt. struktuře se najdou všechny výskyty. Ovšem do poznámky uvést, že to rozvití "měsíců" je obligatorní. Horší je, že zde může variovat i měsíců/let a "natvrdo a podmíněně". Prozatím nezbyde, než to vše mít jako samostatná hesla SemLexu, ale optimální to není. MOC DOBRÝ PŘÍKLAD. DÍKY. --ps |
| - //rozvíjitelné//: označit celek, zavést jej do SemLexu. Jeho frazeologické části jsou zajímavý problém do budoucna, ale zcela samostatný. Lexikografická záležitost. Alespoň dokud nenajdete lepší příklad :-) |
| |
| * (víceslovné značky autorů pod článkem (pokud víceslovné existují) značit jako entity reprezentující jména osob) |
| * Případy jako //první vlna//, //druhá vlna// aj. kazdý značíme jako frazém, těch vln asi není až tak hodně, max. 10. |
| * Ve frazémech typu //přešla mne chut'// značíme jen //přejít chut'//. |
| |
| |
| ==PŠ+PV== |
| |
| Ještě technický problém: občas některé lexémy naprosto nevysvětlitelně nelze označit a program hlásí, že "vybraný text nemá smysl anotovat"(přitom to jsou ale výrazy, které prokazatelně smysl anotovat má), několikrát se to stalo i u celého souboru. (PŠ+PV) |
| - potřebujeme přesný údaj, kde se to stalo. Jinak chybu nemůžeme opravit. (--ps) |
| |
| * první příklad, se kterým jsem se dnes setkal: v souboru ln95047_134.t.gz se (což se stává) opakuje poslední věta dvakrát; v obou případech nelze označit druhou půlku telefonního čísla (= součást adresy). (pš) |
| * další příklad: soubor ln95047_137, 6. odstavec, výraz "nemocniční zařízení": lze označit jen "nemocniční", nikoli "zařízení". (pš) |
| * dalsi priklady souboru, kdy je posledni veta zdvojena a nektere vyrazy v ni nelze anotovat: davka 14/soubor 18; 14/31; |
| 14/50; 14/72; 15/22, 23 (skoro celé nelze anotovat); 16/51; 16/74; 16/134 (pv) |
| |
PŠ+PV | Další otázky: |
| 1) jak znacit vyrazy jako: vládní návrh zákona o sociální podpoře |
| jmena zakonu obecne znacim jako objekty, ale tady se zaroven krizi: vladni navrh, navrh zakona, zakon o socialni podpore a socialni podpora - je v takovych pripadech lepsi zadat cele heslo do slovniku s tim, ze bude slovnik velmi rychle narustat, nebo vyraz rozkouskovat a v tom pripade jak? |
| 2) jak anotovat fakulty a názvy univerzit, obory apod? |
| 3) jak znacit parafraze a nekonecne mnozstvi variaci typu "Zloději nechodí po horách, ale po domácnostech" (pv) |
| |
| * Další příklad neznačitelného souboru: ln95048_045.t.gz: lze značit jen 1/2 jména Truman Capote. (PŠ) |