[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
external:lexemann:guidelines [2007/04/19 12:36]
vimmrova
external:lexemann:guidelines [2008/07/10 12:39]
bejcek Doplnění pravidel
Line 4: Line 4:
 ==== Pravidla ==== ==== Pravidla ====
  
-== SemLex -- slovník víceslovných lexémů ==+=== SemLex -- slovník víceslovných lexémů ===
   * Vyhledávání   * Vyhledávání
   * Přidávání do slovníku   * Přidávání do slovníku
Line 10: Line 10:
     * je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci     * je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci
       * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''.       * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''.
 +    * Pokud přidáváte položku zřetelně odvozenou od jiné, která už ve slovníku je, poznamenejte to opět do glosy jako ''%%***%%derived: <ID číslo původní položky>''\\ později bude vyhledání přidáno přimo do programu (např. "zrakově postižený člověk" je odvozený od "zdravotně postižený člověk").
 +    * Pro frazémy neurčitého slovního druhu (jako např. "laicky řečeno" -- asi částice?) bude možno v příští verzi vybrat N/A.
  
-== Pojmenované entity == +=== Pojmenované entity ("NE") === 
-  **v této fázi se zabýváme jen striktně víceslovnými NE: tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu.** +**v této fázi se zabýváme jen striktně víceslovnými NE:** tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu. Z toho důvodu neanotujeme ani jednoslovné zkratky víceslovných NE (např. ČSSD). (Pozor, KDU-ČSL má tři tektogramatické uzly, proto je chceme **anotovat** již v této fázi jako instituce). 
---- + 
-   * TODO Sjednotit (zde i ve sem-ann-uanglické a české názvyTřeba person pro jméno žáby je poněkud matoucí. (podle mne neníjde o personifikaci --ps)+Vnitřní struktura nás (prozatím) nezajímátakže například "Astronomický ústav Univerzity Karlovy v Praze" anotujeme jako jednu jedinou instituci. 
 + 
 +----
  
    * **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly    * **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly
Line 43: Line 47:
      * //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic      * //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic
  
 +=== Frazémy ===
 +
 +Příklady toho, co už není frazém:
 +  * moskevský čas
 +  * antisemitská politika, rasistická politika
 +
 +Eliptické užití frazému se anotuje původním frazémem, tedy například "zrakově postižený" je anotováno slovníkovou položkou "zrakově postižený člověk".
  
 ==== K nástroji sem-ann ==== ==== K nástroji sem-ann ====
  
- * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. +  * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. 
- * Program lze spouštět také například takto: ''./sem-ann.pl anot/lnd94103_1*.t.gz anot/lnd94103_002.t.gz''. Pak program po startu automaticky otevře soubor ''lnd94103_100.t.gz''. Po dokončení práce a uložení souboru klávesa F8 otevře soubor ''lnd94103_101.t.gz'' atd. až předposlední soubor bude ''lnd94103_199.t.gz'' a poslední ''lnd94103_002.t.gz''. Klávesa F7 umožňuje naopak vracet se k předchozímu vyjmenovanému souboru.+  * Program lze spouštět také například takto: ''./sem-ann.pl anot/lnd94103_1*.t.gz anot/lnd94103_002.t.gz''. Pak program po startu automaticky otevře soubor ''lnd94103_100.t.gz''. Po dokončení práce a uložení souboru klávesa F8 otevře soubor ''lnd94103_101.t.gz'' atd. až předposlední soubor bude ''lnd94103_199.t.gz'' a poslední ''lnd94103_002.t.gz''. Klávesa F7 umožňuje naopak vracet se k předchozímu vyjmenovanému souboru.
  
 === Některé užitečné klávesy === === Některé užitečné klávesy ===
Line 56: Line 67:
 |F7|Previous file|//od revize 94//| |F7|Previous file|//od revize 94//|
 |F8|Next file|//od revize 94//| |F8|Next file|//od revize 94//|
 +
 +
 +
  
  
Line 61: Line 75:
 Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních: Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních:
  
-* Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/*dopravní hřích) a co není odlučitelné (*dopravní závažný přestupek).  +  * Obecně: frazém je to, co nelze lexikálně variovat (dopravní přestupek/*dopravní hřích) a co není odlučitelné (*dopravní závažný přestupek).  
-* Apelativa jako "ulice", "náměstí" (např. ve spojení "Staroměstské náměstí" i "náměstí Míru") apod. jsou součástí pojmenovaných entit +    - obojí je obvyklé, ale když alespoň jedno neplatí, neznamená to ještě, že o frazém v nějakém smyslu nejde.  
-*slovo "zákon" je součástí názvu (zákon o daních, podle zákona 1456/18, Sb.) +      - Máme dost různých kreativních užití ("ne Rudé, ale Šedé právo"; nový význam spojení "Sarajevský atentát"), některé jsou pak časem více či méně lexikalizované. Otázka je, jak "ad hoc" frazémy značit.Prozatím navrhuji zanést jej do Semlexu a do pozn. uvést od jakého frazému je odvozen, pokud je to zřejmé (je-li ten původní kiž v SemLexu, tak ID). 
-* NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, je to INSTITUCE (GVŠ koupila obraz x jdu do GVŠ) +      - //neodlučitelnost// je také sporná. Zaprvé je možná (a běžná) elipsa (Sarajevský atentát -> Sarajevo). To ale není odloučení. Ovšem i rozvití části frazému je ale možné. Co možné není, je porušení přímé závislosti všech částí frazému, neboli rozdělení (přerušení) jeho syntaktického stromu jiným uzlem. 
-* devět sekund, pět let, 20 hodin – jde o čas ?(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat? +  * Apelativa jako "ulice", "náměstí" (např. ve spojení "Staroměstské náměstí" i "náměstí Míru") apod. jsou součástí pojmenovaných entit 
-* Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů ("výkonná rada oddělení obvodního úřadu pro míru nezaměstnanosti")+    - ano --ps 
 +  * slovo "zákon" je součástí názvu (zákon o daních, podle zákona 1456/18, Sb.) 
 +    - souhlas. --ps 
 +  * NE typu „galerie Václava Špály“: je to místo, když se tím míní místo; ale když je tam personifikace, je to INSTITUCE (GVŠ koupila obraz x jdu do GVŠ) 
 +    - ano, přesně tak si to představuji. --ps 
 +  * devět sekund, pět let, 20 hodin – jde o čas ?(shodli jsme se, že „rok 1994“ značíme celé jako čas), nebo máme postupovat analogicky podle „10 metrů“ a neanotovat? 
 +  * Problém značení variabilních frazémů (dostal x měsíců natvrdo) a nekonečně rozvinutelných frazémů ("výkonná rada oddělení obvodního úřadu pro míru nezaměstnanosti"
 +    - //variabilní//: zavést "dostat měsíců natvrdo" apod. vzhledem k syntakt. struktuře se najdou všechny výskyty. Ovšem do poznámky uvést, že to rozvití "měsíců" je obligatorní. Horší je, že zde může variovat i měsíců/let a "natvrdo a podmíněně". Prozatím nezbyde, než to vše mít jako samostatná hesla SemLexu, ale optimální to není. MOC DOBRÝ PŘÍKLAD. DÍKY. --ps 
 +    - //rozvíjitelné//: označit celek, zavést jej do SemLexu. Jeho frazeologické části jsou zajímavý problém do budoucna, ale zcela samostatný. Lexikografická záležitost. Alespoň dokud nenajdete lepší příklad :-) 
 + 
 +  * //značky autorů pod článkem navrhuji značit jako entity reprezentující jména osob// (--ps) 
 +  * Případy jako //první vlna//, //druhá vlna// aj. kazdý značíme jako  frazém, těch vln asi není až tak hodně, max. 10. 
 +  * Ve frazémech typu //přešla mne chut'// značíme jen //přejít chut'//
 + 
 + 
 +==PŠ+PV== 
 + 
 +Ještě technický problém: občas některé lexémy naprosto nevysvětlitelně nelze označit a  program hlásí, že "vybraný text nemá smysl anotovat"(přitom to jsou ale výrazy, které prokazatelně smysl anotovat má), několikrát se to stalo i u celého souboru. (PŠ+PV) 
 +  - potřebujeme přesný údaj, kde se to stalo. Jinak chybu nemůžeme opravit. (--ps) 
 + 
 +  * první příklad, se kterým jsem se dnes setkal: v souboru  ln95047_134.t.gz se (což se stává) opakuje poslední věta dvakrát; v obou případech nelze označit druhou půlku telefonního čísla (= součást adresy). (pš) 
 +  * další příklad: soubor ln95047_137, 6. odstavec, výraz "nemocniční zařízení": lze označit jen "nemocniční", nikoli "zařízení". (pš) 
 +  * dalsi priklady souboru, kdy je posledni veta zdvojena a nektere vyrazy v ni nelze anotovat: davka 14/soubor 18; 14/31;  
 +14/50; 14/72; 15/22, 23 (skoro celé nelze anotovat); 16/51; 16/74; 16/134 (pv) 
 + 
 +Další otázky:  
 +1) jak znacit vyrazy jako: vládní návrh zákona o sociální podpoře 
 + jmena zakonu obecne znacim jako objekty, ale tady se zaroven krizi: vladni navrh, navrh zakona, zakon o socialni podpore a socialni podpora - je v takovych pripadech lepsi zadat cele heslo do slovniku s tim, ze bude slovnik velmi rychle narustat, nebo vyraz rozkouskovat a v tom pripade jak? 
 +2) jak anotovat fakulty a názvy univerzit, obory apod? 
 +3) jak znacit parafraze a nekonecne mnozstvi variaci typu "Zloději nechodí po horách, ale po domácnostech" (pv)
  
-PŠ+PV 
  

[ Back to the navigation ] [ Back to the content ]