[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:hladka:vincent-kriz [2009/05/08 14:10]
vincent.kriz Pridane vysledky na vlastnych testovacich udajoch
user:hladka:vincent-kriz [2009/06/30 09:02] (current)
vincent.kriz
Line 15: Line 15:
     5/05/2009 - záver práce na bakalárke - dolaďovanie textu, zdrojových kódov     5/05/2009 - záver práce na bakalárke - dolaďovanie textu, zdrojových kódov
    * 20/05/2009 - odovzdanie bakalárskej práce    * 20/05/2009 - odovzdanie bakalárskej práce
 +
  
 ====== Stretnutia ====== ====== Stretnutia ======
-   * Mohli by sme sa stretnúť v __pondelok, 09.05.2009__? +   * Mohli by sme sa stretnúť v __pondelok, 18.05.2009__? 
    * Čo by som chcel prebrať:    * Čo by som chcel prebrať:
-      * Predstavenie ukazka aplikacie SyMorAn (prinesiem notebook) +      * Ako som zapracoval Vase pripomienky + hodnotenie zvysnych kapitol priloh 
-         * prepinace +      * Ukazka webovej stranky ak pan Kebrt dovtedy odpise :) 
-         * 3 mody vystupu +      * Vase vysledky na Vasich testovacich udajoch
-         * morfologicke moduly +
-         * syntakticky modul +
-         * 4 urovne chyb +
-         * zaverecna statistika +
-      * Diskusia nad textom prace +
-      * Predstavenie webovej stranky (ak ju to pondelka stihnem napisat)+
  
 ====== Text bakalarky ====== ====== Text bakalarky ======
    * Mozete sem, prosim, napisat ako maju vyzerat zaznamy v Literature - jednak na webove stranky a jednak na Sprievodcu CAK 2.0    * Mozete sem, prosim, napisat ako maju vyzerat zaznamy v Literature - jednak na webove stranky a jednak na Sprievodcu CAK 2.0
 +      *   \bibitem[Vidová Hladká, 2008]{hladka:2008} Vidová Hladká Barbora, Jan Hajiè, Jiøí Hana, Jaroslava Hlaváèová, Jiøí Mírovský, Jan Raab. Czech Academic Corpus 2.0. CD-ROM, ISBN: 1-58563-491-3. Linguistic Data Consortium, cat. num.: LDC2008T22, Philadelphia, Pennsylvania, USA, 2008.
 +      * \bibitem[CAC 2.0, 2008]{cac:2008} Czech Academic Corpus 2.0 on-line. \tt{http://ufal.mff.cuni.cz/rest/cac/cac\_20.html}
 +
    * Zoznam obrazkov a tabuliek mam vlozit na zaciatok prace (za obsah), na koniec (za literaturu) alebo na uplny koniec (za prilohy)?    * Zoznam obrazkov a tabuliek mam vlozit na zaciatok prace (za obsah), na koniec (za literaturu) alebo na uplny koniec (za prilohy)?
 +      * Za obsah.
 +      * Literatura je na konci textu pred prilohami.
 +
    * Praca obsahuje 2 dodatky - morfologicke tabulky a popis CD-ROM    * Praca obsahuje 2 dodatky - morfologicke tabulky a popis CD-ROM
 +      * Dobre. To mate popis morfologickych znacek jako latexovskou tabulku?
    * Privitam akekolvek navrhy/napady na zlepsenie textu :)))    * Privitam akekolvek navrhy/napady na zlepsenie textu :)))
 +      * Peclive jsem precetla prvni verzi, kterou jste mi poslal. K te druhe jsem se nedostala, castecne i zamerne. Projedeme tu prvni a uvidite;-))
    * Mam do Uvodu napisat presne zadanie prace (z SISu)?    * Mam do Uvodu napisat presne zadanie prace (z SISu)?
 +      * Myslim, ze to neni nutne. Abstrakt slovensky a cesky staci.
 +
  
 ====== Testovacie udaje ====== ====== Testovacie udaje ======
    * Dev-subory, ktore ste mi poslala som nevedel spracovat tool_chainom (nevedel som spustit parser), preto som zo suboru vybral cisty text viet a znovu ich prehnal tool_chainom. Tentoraz to tool_chain bol schopny spracovat.    * Dev-subory, ktore ste mi poslala som nevedel spracovat tool_chainom (nevedel som spustit parser), preto som zo suboru vybral cisty text viet a znovu ich prehnal tool_chainom. Tentoraz to tool_chain bol schopny spracovat.
    * Pri testovani developerskeho suboru som zistil, ze subor meaningless_sentences.csts obsahuje jednak zmysluplne vety (alebo som nezachytil nejaku pravopisnu chybu) a jednak vety, ktore neobsahuju morfologicku, ani syntakticku chybu.    * Pri testovani developerskeho suboru som zistil, ze subor meaningless_sentences.csts obsahuje jednak zmysluplne vety (alebo som nezachytil nejaku pravopisnu chybu) a jednak vety, ktore neobsahuju morfologicku, ani syntakticku chybu.
 +      * Aha, tak to se na ne rada podivam.
       - Navrhujem rucne prejst subor a vyhadzat z neho zmysluplne vety.       - Navrhujem rucne prejst subor a vyhadzat z neho zmysluplne vety.
       - Navrhujem vytvorit vlastny subor nezmysluplnych viet a pouzit ho ako dev-subor.       - Navrhujem vytvorit vlastny subor nezmysluplnych viet a pouzit ho ako dev-subor.
    * Akym sposobom sa chystate testovat SyMorAn na evaluacnych datach? Otestujete nimi aj rocnikovy projekt? Dorucite mi rovno vysledky alebo vystup mojich programov a statistiku si spracujem sam?    * Akym sposobom sa chystate testovat SyMorAn na evaluacnych datach? Otestujete nimi aj rocnikovy projekt? Dorucite mi rovno vysledky alebo vystup mojich programov a statistiku si spracujem sam?
 +      * Poslu Vam primo vystup Vaseho programu.
 +
 +
 +
  
 +====== Vysledky na developerskych testovacich udajoch ======
 +   * Do bakalarky som zaclenil vysledky Moran/Symoran na developerskych udajoch. Su v podstate navlas rovnake, s tym rozdielom, ze Symoran odhalil vacsi pocet chyb. Co sa tyka ale poctu OK/KO viet, ten je rovnaky.
 +   * Tu je statistika:
 +      * **Meaningless_sentences**
 +''           Pocet spracovanych viet: 101
 +           Pocet OK viet: 70 (69.31%)
 +           Pocet KO viet: 31 (30.69%)
 +           Pocet chyb spolu: 39
 +           Podiel modulov na objavenych chybach:
 +                 0 (0.00%)
 +                 9 (23.08%)
 +                 1 (2.56%)
 +                 0 (0.00%)
 +                 4 (10.26%)
 +                 8 (20.51%)
 +                 0 (0.00%)
 +                 17 (43.59%)''
 +      * **Meaningfull_sentences**
 +''Pocet spracovanych viet: 20
 +Pocet OK viet: 14 (70.00%)
 +Pocet KO viet: 6 (30.00%)
 +Pocet chyb spolu: 7
 +Podiel modulov na objavenych chybach:
 +X       0 (0.00%)
 +A       1 (14.29%)
 +C       0 (0.00%)
 +J       0 (0.00%)
 +N       2 (28.57%)
 +P       4 (57.14%)
 +V       0 (0.00%)
 +R       0 (0.00%)''
 +   * Do kapitoly Vysledky tak zostava doplnit Vase testovanie :)
  
-====== Vysledky na vlastnych testovacich udajoch ====== 
-   * Pripravil som subor vlastnych testovacich udajov, ktore by sme mohli pouzit namiesto dev-suborov 
-   * Subory najdete na [[http://vincworld.xf.cz/RP/pohadka.ko]] a [[http://vincworld.xf.cz/RP/pohadka.ok]] 
-   * Tu su vysledky: 
-      * Aplikacia **MorAn (RP)** 
-         * Subor KO: 60% 
-         * Subor OK: 72% 
-      * Aplikacia **SyMorAn** 
-         * Subor KO: 66% 
-         * Subor OK: 66% 
  
-====== Technické detaily ====== 
-   * Použití SVN serveru na ÚFAL 
-      * [[http://ufal.mff.cuni.cz/~hladka/rp200809/svn-prednaska2.pdf|kraťoučký tutoriál o svn ]] 
-      * ''/home/svn/repos/bc_kriz/, user: kriz, passwd: bc_kriz'' 
-      * vlastní účet v síti ÚFAL nepotřebujete,  budete commitovat do své SVN a prohlížet si ji na webu. Na ''https://svn.ms.mff.cuni.cz/projects/'' je Váš projekt videt - viz ''https://svn.ms.mff.cuni.cz/projects/bc_kriz, user: ufal, passwd: maly_lingvista''. Tady budou časem jednotlivé soubory v poslední verzi, s možností prohlížet ty starší: ''https://svn.ms.mff.cuni.cz/projects/bc_kriz/browser''. 
-      * Co se týče subverse, tak ani na ni nepotřebujete mít přístup na síť ÚFAL. Potřebujete mít nějakého klienta (standardní svn na linuxu, nebo třeba SVN Tortoise na windows). A rovnou můžete začít se subversí, asi nějaký ''svn import'' a ''svn checkout'' ... Zde je info: ''http://svnbook.red-bean.com/en/1.5/svn.tour.importing.html''. Repository má adresu ''svn://svn.ms.mff.cuni.cz/bc_kriz'', takže ''checkout'' třeba ''svn checkout svn://svn.ms.mff.cuni.cz/bc_kriz/trunk his_local_directory'' 
  
  

[ Back to the navigation ] [ Back to the content ]