[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
external:lexemann:guidelines [2008/08/25 15:22]
bejcek úpravy anotátorských dotazů
external:lexemann:guidelines [2009/03/25 12:07]
bejcek Oprava, zpřesnění apelativ u NE
Line 1: Line 1:
 ====== Anotační instrukce ====== ====== Anotační instrukce ======
  
 +===== Pravidla =====
  
- +==== SemLex -- slovník víceslovných lexémů ====
- +
-==== Pravidla ==== +
- +
-=== SemLex -- slovník víceslovných lexémů ===+
   * Vyhledávání   * Vyhledávání
   * Přidávání do slovníku   * Přidávání do slovníku
Line 16: Line 13:
     * Je-li potřeba položku smazat, použijte ''%%***%%remove'' a případně připište důvod (vytvořeno omylem, duplicitní heslo, není frazémem, ...)     * Je-li potřeba položku smazat, použijte ''%%***%%remove'' a případně připište důvod (vytvořeno omylem, duplicitní heslo, není frazémem, ...)
  
-=== Pojmenované entity ("NE") ===+ 
 + 
 +==== Pojmenované entity ("NE"====
 **v této fázi se zabýváme jen striktně víceslovnými NE:** tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu. Z toho důvodu neanotujeme ani jednoslovné zkratky víceslovných NE (např. ČSSD). (Pozor, KDU-ČSL má tři tektogramatické uzly, proto je (a všechny ostatní zkratky s pomlčkou, spojovníkem, či mezerou ("MFF UK")) chceme **anotovat** již v této fázi jako instituce). **v této fázi se zabýváme jen striktně víceslovnými NE:** tedy těmi, uvnitř nichž nemá smysl ani závislostní popis, ani funktory. Jednoslovné NE se budou anotovat až v 2. fázi v TrEdu. Z toho důvodu neanotujeme ani jednoslovné zkratky víceslovných NE (např. ČSSD). (Pozor, KDU-ČSL má tři tektogramatické uzly, proto je (a všechny ostatní zkratky s pomlčkou, spojovníkem, či mezerou ("MFF UK")) chceme **anotovat** již v této fázi jako instituce).
  
Line 74: Line 73:
  
  
-Všechna **apelativa** budeme považovat za součást entity. Hlavním důvodem je, že určují její typ. (Příklady: "ulice Politických vězňů", "náměstí Míru", "Staroměstské náměstí", "chrám sv. Víta", "kniha Babička".)+Některá **apelativa** budeme považovat za součást entity, většinu však ne. 
 +Apelativakterá budeme anotovat spolu s entitou, jsou vesměs geografické výrazy, vždy tvoří součást názvu (vynechání lze pak považovat spíšza elipsu), určují typ entity. 
 +Příklady: "ulice Politických vězňů", "náměstí Míru", "Staroměstské náměstí", "chrám sv. Víta", "Štefánikův most", "most Legií", "dům U třech slunců" 
 +naopak neanotujeme apelativa "kniha Babička", kapela, turnaj, společnost apod(nejsou-li s jistotou součástí názvu -- v tom případě by měla být psána s velkým písmenem).
   * //Univerzita Karlova v Praze// -- anotovat celé   * //Univerzita Karlova v Praze// -- anotovat celé
   * //Washington, DC// -- celé   * //Washington, DC// -- celé
Line 82: Line 84:
   * //Filozofická fakulta v Českých Budějovicích// -- zvlášť fakultu, zvlášť město   * //Filozofická fakulta v Českých Budějovicích// -- zvlášť fakultu, zvlášť město
   * //kapela Doors// -- nic (anotovalo by se jen jednoslovné //Doors//)   * //kapela Doors// -- nic (anotovalo by se jen jednoslovné //Doors//)
-  * //turnaj U.S. Open// -- FIXME +  * //turnaj U.S. Open// -- jen U.S. Open jako objekt 
-  * //chrám sv. Václava// -- FIXME +  * //chrám sv. Václava// -- celé 
-  * //Petr Novák// -- FIXME +  * //pan Novák// -- nic 
-  * //pan Novák// -- FIXME +  * //ulice pplk. Sochora// -- celé 
-  * //ulice pplk. Sochora// -- FIXME jsou součástí pojmenovaných entit - ano --ps +  * //Staroměstské náměstí// i //náměstí Míru// -- celé 
-  * //Staroměstské náměstí// i //náměstí Míru// -- FIXME jsou součástí pojmenovaných entit - ano --ps +  * //zákon o daních// -- celé (pokud je to název jednoho konkrétního zákona) 
-  * //zákon o daních// -- celé FIXME +  * //podle zákona 1456/18, Sb.// -- bez //"podle"// celé
-  * //podle zákona 1456/18, Sb.// -- bez //"podle"// celé FIXME+
  
  
-=== Frazémy ===+==== Frazémy ====
  
 Příklady toho, co už není frazém: Příklady toho, co už není frazém:
Line 106: Line 107:
  
  
-==== K nástroji sem-ann ====+===== K nástroji sem-ann =====
  
   * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen.   * Zobrazuje-li se vlevo pod oknem s textem hvězdička (v samostatném rámečku), značí to, že soubor byl změněn a nebyl dosud uložen.
Line 126: Line 127:
  
  
-==== Dotazy, nejasnosti ===+ 
 +===== Dotazy, nejasnosti ====
 Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních: Máme několik dalších nejasností, zatím jsme se shodli na následujících řešeních:
  
Line 149: Line 151:
  
 ==PŠ+PV== ==PŠ+PV==
- 
-Ještě technický problém: občas některé lexémy naprosto nevysvětlitelně nelze označit a  program hlásí, že "vybraný text nemá smysl anotovat"(přitom to jsou ale výrazy, které prokazatelně smysl anotovat má), několikrát se to stalo i u celého souboru. (PŠ+PV) 
-  - potřebujeme přesný údaj, kde se to stalo. Jinak chybu nemůžeme opravit. (--ps) 
- 
-  * první příklad, se kterým jsem se dnes setkal: v souboru  ln95047_134.t.gz se (což se stává) opakuje poslední věta dvakrát; v obou případech nelze označit druhou půlku telefonního čísla (= součást adresy). (pš) 
-  * další příklad: soubor ln95047_137, 6. odstavec, výraz "nemocniční zařízení": lze označit jen "nemocniční", nikoli "zařízení". (pš) 
-  * dalsi priklady souboru, kdy je posledni veta zdvojena a nektere vyrazy v ni nelze anotovat: davka 14/soubor 18; 14/31;  
-14/50; 14/72; 15/22, 23 (skoro celé nelze anotovat); 16/51; 16/74; 16/134 (pv) 
  
 Další otázky:  Další otázky: 
Line 164: Line 158:
 3) <del>jak znacit parafraze a nekonecne mnozstvi variaci typu "Zloději nechodí po horách, ale po domácnostech" (pv)</del> 3) <del>jak znacit parafraze a nekonecne mnozstvi variaci typu "Zloději nechodí po horách, ale po domácnostech" (pv)</del>
  
- * Další příklad neznačitelného souboru: ln95048_045.t.gz: lze značit jen 1/2 jména Truman Capote. (PŠ)+[[oldlines|Starší pravidla]] (používaná do 2372008).

[ Back to the navigation ] [ Back to the content ]