[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
external:lexemann:guidelines [2008/07/03 11:16]
ufal
external:lexemann:guidelines [2008/07/10 12:50]
bejcek zpřesnění
Line 4: Line 4:
 ==== Pravidla ==== ==== Pravidla ====
  
-== SemLex -- slovník víceslovných lexémů ==+=== SemLex -- slovník víceslovných lexémů ===
   * Vyhledávání   * Vyhledávání
   * Přidávání do slovníku   * Přidávání do slovníku
Line 10: Line 10:
     * je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci     * je vhodné časté pojmenované entity také přidávat do slovníku, v další verzi programu to poslouží k automatické předanotaci
       * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''.       * Pro odlišení pojmenovaných entit od ostatních lexémů ve slovníku je potřeba určit typ entity do glosy:\\ ''%%***%%(jméno)''\\ ''%%***%%(instituce)''\\ ''%%***%%(místo)''\\ ''%%***%%(objekt)''\\ ''%%***%%(foreign)''.
 +    * Pokud přidáváte položku zřetelně odvozenou od jiné, která už ve slovníku je, poznamenejte to opět do glosy jako ''%%***%%derived: <ID číslo původní položky>''\\ později bude vyhledání přidáno přimo do programu (např. "zrakově postižený člověk" je odvozený od "zdravotně postižený člověk").
 +    * Pro frazémy neurčitého slovního druhu (jako např. "laicky řečeno" -- asi částice?) bude možno v příští verzi vybrat N/A.
  
-== Pojmenované entity == +=== Pojmenované entity ("NE") === 
-  **v této fázi se zabýváme jen striktně víceslovnými NE: tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu.** +**v této fázi se zabýváme jen striktně víceslovnými NE:** tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu. Z toho důvodu neanotujeme ani jednoslovné zkratky víceslovných NE (např. ČSSD). (Pozor, KDU-ČSL má tři tektogramatické uzly, proto je (a všechny ostatní zkratky s pomlčkou, spojovníkem, či mezerou ("MFF UK")) chceme **anotovat** již v této fázi jako instituce). 
---- + 
-   * TODO Sjednotit (zde i ve sem-ann-uanglické a české názvyTřeba person pro jméno žáby je poněkud matoucí. (podle mne neníjde o personifikaci --ps)+Vnitřní struktura nás (prozatím) nezajímátakže například "Astronomický ústav Univerzity Karlovy v Praze" anotujeme jako jednu jedinou instituci. 
 + 
 +----
  
    * **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly    * **jméno** jsou jména pouze osob a zvířat\\ ke jménu osoby patří i tituly
Line 43: Line 47:
      * //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic      * //mezi sedadly 30 a 40// -- **X** je "//mezi 30 a 40//", "//sedadly//" není nic
  
 +=== Frazémy ===
 +
 +Příklady toho, co už není frazém:
 +  * moskevský čas
 +  * antisemitská politika, rasistická politika
 +
 +Eliptické užití frazému se anotuje původním frazémem, tedy například "zrakově postižený" je anotováno slovníkovou položkou "zrakově postižený člověk".
  
 ==== K nástroji sem-ann ==== ==== K nástroji sem-ann ====
  
- * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. +  * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen. 
- * Program lze spouštět také například takto: ''./sem-ann.pl anot/lnd94103_1*.t.gz anot/lnd94103_002.t.gz''. Pak program po startu automaticky otevře soubor ''lnd94103_100.t.gz''. Po dokončení práce a uložení souboru klávesa F8 otevře soubor ''lnd94103_101.t.gz'' atd. až předposlední soubor bude ''lnd94103_199.t.gz'' a poslední ''lnd94103_002.t.gz''. Klávesa F7 umožňuje naopak vracet se k předchozímu vyjmenovanému souboru.+  * Program lze spouštět také například takto: ''./sem-ann.pl anot/lnd94103_1*.t.gz anot/lnd94103_002.t.gz''. Pak program po startu automaticky otevře soubor ''lnd94103_100.t.gz''. Po dokončení práce a uložení souboru klávesa F8 otevře soubor ''lnd94103_101.t.gz'' atd. až předposlední soubor bude ''lnd94103_199.t.gz'' a poslední ''lnd94103_002.t.gz''. Klávesa F7 umožňuje naopak vracet se k předchozímu vyjmenovanému souboru.
  
 === Některé užitečné klávesy === === Některé užitečné klávesy ===

[ Back to the navigation ] [ Back to the content ]