/net/projects/rest/CAC/cac20/tutorials
(jeste chybi demosnimek k TrEd - Petr Pajas udela; STYX - chybi df. verze STYX, LAW) Komentare prosim piste primo sem na wiki.tool_chain
(/net/projects/rest/CAC/cac20/tools/tool_chain
). Komentar posilejte primo Michalovi Kebrtovi (michalek.k@seznam.cz
)
Adresar /net/projects/REST/data/CAC/cac20
je nasim 'ladicim' adresarem. Az budete mit nastroje nachystane v nejake verzi (nemusi byt definitivni), tak je ulozte do spravneho adresare - abychom mohli zvolna zacit ladit.
Pokud jste se zatoulali na tuto stranku a nasli zde prekvapive (bez predchoziho varovani) svoje jmeno, tak mate pravdu;-) Vezte, ze budete varovani velmi brzo!!
Ondrej Bojar
Jarka Hlavacova
Emil Jerabek
Michal Kebrt
Oldrich Kruza
Ondrej Kucera
Pavel Kveton
Jirka Mirovsky
Pavel Pecina
11.4.2007 Pavel pise:
Ano, tokenizer muzete pouzit.
Jeho kod je zde: /net/projects/textseg
A dokumentace tady: https://wiki.ufal.ms.mff.cuni.cz/internal:textseg
Pavel Ceska uz na nem nepracuje, ale nic v nem neni zadratovano tak, aby
to neslo rychle a dobre upravit. Porad planujeme pizzovy seminar, na
kterem by se to mohlo vsechno jeste probrat a pripadne upravit. Takze,
nez budete chtit nejakou finalni verzi, tak nam jeste dejte vedet.
Kiril Ribarov
Michal Sotkovsky
Honza Raab
18.6. v 8:30 probehla schuzka o praci na datech; PRITOMNI: Alla Bemova, Veronika Curdova (anotatorka), Jan Hajic, Barbora Hladka, Jiri Mirovsky, Kiril Ribarov, Zdenka Uresova, Lenka Zehrova (anotatorka)
Udaje psane kurzivou signalizuji splneni.
2007 | duben | kveten | cerven | cervenec | srpen | zari | rijen | listopad | prosinec |
---|---|---|---|---|---|---|---|---|---|
Bara | zahajit komunikaci s LDC (spolu s Honzou H.) | - | do 20. cervna odevzdat 'naplnene' xml soubory; 18.6. 8:30 schuzka o datech | 1. verze Pruvodce | - | - | - | - | - |
do 17.4. pripravit osnovu Pruvodce - viz cast CO bod 3 | - | - | - | - | - | - | - | - | |
24.4. oslovit ty, kteri budou psat casti Pruvodce | - | - | - | - | - | - | - | - | |
Jirka H. | - | - | do 20. cervna odevzdat 'naplneny' xml soubor | - | - | dodat df verzi LAW pro cd | dodat tutorial k LAW | - | - |
Jarka | - | - | do 20. cervna odevzdat 'naplnene' xml soubory | - | - | dodat df verzi morf. anal. pro cd | dodat tutorial k Bonito | - | - |
Jirka M. | kontrola morf. anotaci | - | do 20. cervna odevzdat 'naplnene' xml soubory; seznamit se s kontrolnimi PDT 2.0 skripty; 18.6. 8:30 schuzka o datech | - | - | dodat df. verzi Netgraph | dodat tutorial k Netgraph | - | - |
Kiril | prubezne priprava dat pro anotatory | vymyslet strategii pro porovnani souboru od anotatoru | makra do TrEd; 18.6. 8:30 schuzka o datech | - | - | dodat df verzi parseru pro cd | - | - | - |
Honza R. | do 23.4. pripravit xml soubory pro jednotlive casti Pruvodce | - | - | 1. verze Pruvodce | - | dodat df verzi taggeru pro cd | - | - | - |
Pavel Q. | - | - | - | - | - | dodat morfologii pro Bonito | - | - | - |
Ondra B. | - | - | - | - | - | - | - | 1. verze instalatoru | - |
Michal K. | - | - | - | - | - | - | tool_chain | - | - |
Michal S. | - | - | - | - | - | dodat designove podklady | - | - | - |
Ondrej K. | - | - | - | - | - | dodat df verzi STYX pro cd | dodat tutorial k STYX | - | - |
Leos Prikryl | - | - | - | - | - | - | dodat df. verzi TrEdVoice (ve spolupraci s Plzni) | dodat tutorial k TrEdVoice |
Vsechny potrebne soubory jsou ~/raab/cac-guide
. Protoze nektere odstavce budou totozne s odstavci z Pruvodce CAK 1.0, realizujte 'cut'n paste' ze souboru z adresare cac1/.
cac1/ - finalni verze CAC 1.0 upload/ - oblibeny adresar pro zapis zmenenych souboru pdf/ - aktualni pdf verze
Adresar nastroje bude mit nasledujici strukturu
Viz napr. /net/projects/REST/data/CAC/cac10/tools/LAW
K nastrojum s grafickym rozhranim, tedy
Pro demo_1 k STYX jsem pouzila BB FlashBack Express, ktery bylo mozne ziskat zdarma. K tomu, aby se primo do tutorialu daly vkladat poznamky, tak bude potreba koupit BB FlashBack. Pak jsem nasla program Wink, ktery existuje jak pod Win, tak pod Linux - coz je pro nas dulezite. Vyzkousela jsem a vzniklo demo_2. Podivejte se na ne, prosim.
Smysluplnost tutorialu ODSOUHLASENA.
V Pruvodci CAC 2.0 bude rovnez odkaz na PDT tutorial z lonskeho listopadu
tred_wininst_en.zip
.tred_wininst_en
.setup.bat
. Pozor, v adresáři je několik podobně pojmenovaných .bat
souborů - vy spusťte tento základní.stylesheet
, tj. to, co všechno se vám při anotaci zobrazí. Při všech dalších spuštění TrEd se bude zobrazovat to, co jste si nastavili. Zkušenosti říkají, že stačí u uzlu zobrazit slovo a analytickou funkci. Z menu View → Edit Stylesheet
, pravou část okna smažte a vložte následující, které potvrďte ok
:
context: .*
hint:
text:<? $${m/w/token}eq$${m/form} ?
'#{'.CustomColor('sentence').'}${m/w/token}' :
'#{-over:1}#{'.CustomColor('spell').'}['.
join(“ ”,map { $_→{token} } ListV($this→attr('m/w'))).
']#{-over:0}#{'.CustomColor('sentence').'}${m/form}' ?>
node:<? $${afun} eq “AuxS” ? '${id}' : '${m/form}' ?>
node:<?$${afun}?>
Open
(nebo z Recent Files
) otevřete příslušný .a
soubor.PML_CAC_A_Edit
.PML_CAC_A_Edit
(User-defined → PML_CAC_A_Edit
, příp. More
) a dále smíte používat Open
, Save
, Save As
z hlavního menu File
, a všechny další funkce, které slouží k “prohlížení” souboru(ů) - například posouvání po větách, přímý skok na větu s daným pořadovým číslem (tj. různá GoTo
…), vyhledávání v souboru pomocí F3/F4 apod. NIKDY ale nepoužívejte jakékoli funkce, které mění strom nebo hodnoty atributů z menu Node
, ani z maker Tred_Macro
nebo jiných maker a kontextů.Save As
(menu File
), pak zvolte “Current”
v okně pro volbu formátu. .a
v nabízeném seznamu, a přidejte mu před .a
ješte _JP
(J
- inicála jména, P
- iniciála příjmení).“Select resources to save”
. Klikněte na první řádek (soubor s příponou .m
) - měl by se vysvítit. Pak zvolte tlačítko “Change Filename”
, a rovněž u tohoto souboru připište k jeho jménu “_JP”
(těsně před příponu .m
, obdobně jako u .a
souboru). Po odsouhlasení zkontrolujte, že v okně “Select resources to save”
je jméno správně upravené (s tím _JP
). Odsouhlaste uložení tlačítkem “OK”
.…._JP.a
).File → Save
(F2). “Select resources to save”
klikněte na první řádek (mělo by v něm být jméno už rovněž modifikované, s _JP.m
na konci). Hned poté odsouhlaste uložení pomocí tlačítka “OK”
(tedy není nutno znovu měnit jméno souboru pomocí Change Filename
)./net/projects/REST/data/CAC/work_CAC20/data
s dále uvedenými podadresáři.00_actual
- aktuální .w a .m data celého korpusu (Jiří Mírovský)01_MST_Parsed
- sem umístí Kiril vždy nově zparsovaný korpus (kdykoliv ho bude nově parsovat), do podadresáře pojmenovaného podle data (Kiril Ribarov)02_auto_check_A
- první fáze automatických kontrol (Jiří Mírovský)03_2annotations
- anotace souborů jednotlivými anotátorkami (Kiril Ribarov)04_comparison
- porovnání a slití souborů do jedné verze (Kiril Ribarov)05_auto_check_B
- druhá fáze automatických kontrol (Jiří Mírovský)06_manual_check
- sem dá Kiril data poté, co jsou zkontrolována paní Bémovou (Kiril Ribarov)07_auto_check_C
- třetí fáze automatických kontrol; analytická rovina se považuje už za správnou, Jirka ručně opraví morfologii (Jiří Mírovský)08_finished
- tady budou hotová data, tedy ta část korpusu, která je již hotová; hotová .w a .m data se budou kopírovat rovněž do adresáře 00_actual
, aby se odtud v případě potřeby mohla brát (.w by se měnit nemělo) (Jiří Mírovský, Kiril Ribarov)_schemas
- aktuální PML-schémata potřebná k otevření souborů ve výše uvedených adresářích net/projects/rest/data/CAC/atrees/MST2/odAlly
(popis viz nize)s11-s16
12/6/2007
Kirile,
tady preposilam soubor PML_A_Edit.mak a k nemu prilohu od Katky. Radovan jim tato makra udelal primo do PML_A_Edit, coz neni dobre, protoze tim padem my a oni mame jiny PML_A_Edit. Je potreba to udelat “spravne” (tj.v duchu PML schemat) - nechat PML_A_Edit byt, a udelat novy (napr. pojmenovany PML_CAC_A_Edit), ktery “includuje” vsechna makra z PML_A_Edit, a ty specificka pro
anotaci CAC (vc. afunu, koordinaci apod.) prida prave do nej. Myslim, ze taky bude dobre, aby cesti anotatori a slovaci meli ted vsechno stejne - takze az to budes mit, posli to prosim zpet
Radovanovi at jim to nainstaluje. Jinak jsem dnes odpodival na nekolik dotazu ohledne 2. kola;
myslim, ze nejdulezitejsi je, abys jim poslal doplnene pokyny o tom, co smeji a nesmeji pouzivat.
Diky, Honza
net/projects/rest/data/CAC/atrees/MST2/odAnotatoru
net/projects/rest/data/CAC/atrees/MST2/odAlly
net/projects/rest/data/CAC/atrees/MST2/odAlly
), protoze pokud by se zjistilo, ze je nutno neco doimplementovat, tak aby na to byl cas. Dulezite poznamky uvadej zde. jmeno souboru | 1. kolo (03_2annotations ) | 2. kolo (06_manual_check ) |
---|---|---|
a01w | ab | ab |
a02w | ab | ab |
a03w | ab | ab |
a04w | kk | zu |
a05w | mz | ab |
a06w | kg | ab |
a07w | mz | ab |
a08w | kk | zu |
a09w | kg | ab |
a10w | kk | zu |
a11w | mz | ab |
a12w | kg | ab |
a13w | kk | zu |
a14w | mz | ab |
a15w | kg | ab |
a16s | ||
a17s | ||
a18s | ||
a19s | ||
a20w | kg | zu |
jmeno souboru | 1. kolo (03_2annotations ) | 2. kolo (06_manual_check ) |
---|---|---|
n01w | ab | ab |
n02w | ab | ab |
n03w | ik | ab |
n04w | ik | ab |
n05w | ik | ab |
n06w | ik | ab |
n07w | ik | ab |
n08w | ik | ab |
n09w | ik | ab |
n10w | ik | ab |
n11w | ik | ab |
n12w | ik | ab |
n13w | ik | ab |
n14w | ik | ab |
n15w | ik | ab |
n16w | ik | ab |
n17w | ik | ab |
n18w | ik | ab |
n19w | ik | ab |
n20w | ik | ab |
n21w | ik | ab |
n22w | ik | ab |
n23w | ik | ab |
n24w | ik | ab |
n25w | ik | ab |
n26w | ik | ab |
n27w | ik | ab |
n28w | ik | ab |
n29w | ik | ab |
n30w | ik | ab |
n31w | ik | ab |
n32w | ik | zu |
n33w | ik | zu |
n34w | ik | zu |
n35w | ik | zu |
n36w | ik | ab |
n37w | ik | ab |
n38w | ik | ab |
n39w | ik | ab |
n40w | ik | ab |
n41w | ik | ab |
n42w | ik | ab |
n43w | ik | ab |
n44w | kk | zu |
n45w | kg | zu |
n46w | mz | zu |
n47w | kk | zu |
n48w | kg | ab |
n49w | mz | zu |
n50w | mz | ab |
n51w | mz | zu |
n52w | kg | ab |
n53s | ||
n54s | ||
n55s | ||
n56s | ||
n57s | ||
n58s | ||
n59s | ||
n60s |
jmeno souboru | 1. kolo (03_2annotations ) | 2. kolo (06_manual_check ) |
---|---|---|
s00s | ||
s01w | ab | ab |
s02w | ab | ab |
s03w | kg,kk | ab |
s04w | kg,kk | ab |
s05w | kg,kk | ab |
s06w | kg,kk | ab |
s07w | kg,kk | ab |
s08w | kg,kk | ab |
s09w | kg,kk | ab |
s10w | kg,kk | ab |
s11w | ab | ab |
s12w | ab | ab |
s13w | ab | ab |
s14w | ab | ab |
s15w | ab | ab |
s16w | ab | ab |
s17w | sk | ab |
s18w | sk | ab |
s19w | sk | ab |
s20w | sk | ab |
s21w | sk | ab |
s22w | sk | ab |
s23w | sk | ab |
s24w | sk | ab |
s25w | sk | ab |
s26w | sk | ab |
s27w | sk | ab |
s28w | sk | ab |
s29w | sk | ab |
s30w | sk | ab |
s31w | kk,kg | ab |
s32w | kk,mz | ab |
s33w | kk,mz | ab |
s34w | kk,kg | ab |
s35w | kg,mz | ab |
s36w | kk,mz | ab |
s37w | kk,kg | ab |
s38w | kg,mz | ab |
s39w | kk,mz | ab |
s40w | kk,kg | ab |
s41w | kk | ab |
s42w | kk | ab |
s43w | kk | ab |
s44w | kk | ab |
s45w | kk | ab |
s46w | mz | zu |
s47w | mz | zu |
s48w | mz | zu |
s49w | mz | zu |
s50w | mz | zu |
s51w | kg | ab |
s52w | kg | ab |
s53w | kg | ab |
s54w | kg | ab |
s55w | kg | ab |
s56w | kk | ab |
s57w | kk | ab |
s58w | kk | ab |
s59w | kk | ab |
s60w | kk | ab |
s61w | mz | zu |
s62w | mz | zu |
s63w | mz | zu |
s64w | mz | zu |
s65w | mz | zu |
s66w | mz | zu |
s67w | mz | zu |
s68w | mz | zu |
s69s | mz | zu |
s70s | mz | zu |
s71s | kk | zu |
s72s | kk | zu |
s73s | kk | zu |
s74s | kk | |
s75s | kk | |
s76s | kk | zu |
s77s | kk | |
s78s | kk | |
s79s | kk | |
s80s | kk | |
s81s | kg | |
s82s | mz | |
s83s | mz | |
s84s | ||
s85s | kg | |
s86s | ||
s87s | ||
s88s | ||
s89s | mz | |
s90s | ||
s91s | ||
s92s | ||
s93s | mz | |
s94s | mz | |
s95s | ||
s96s | ||
s97s | ||
s98s | kk | |
s99s | mz |
bemova@ufal.mff.cuni.cz
, kontrola anotaci)katarinag@korpus.juls.savba.sk
, sk, anotatorka)hajic@ufal.mff.cuni.cz
)hladka@ufal.mff.cuni.cz
)mirovsky@ufal.mff.cuni.cz
)ribarov@ufal.mff.cuni.cz
, TrEd)uresova@ufal.mff.cuni.cz
, kontrola anotaci)