Vitajte na Wikistránke k bakalárskej práci **Určování syntaktické smysluplnosti českých vět** ====== Podrobné informácie o práci ====== * ...sú uvedené na stránkach SIS UK: [https://is.cuni.cz/studium/dipl_st/index.php?doo=detail&did=66314] * ...na ročníkovom projekte, ktorý predchádzal bakalárskej práci nájdete tu: [http://vincwiki.php5.cz/index.php/Ro%C4%8Dn%C3%ADkov%C3%BD_projekt] ====== Plánovaný harmonogram ====== * 31/01/2009 - naštudovanie výstupu tool_chainu, diskusia nad riešením, definovanie zmysluplnosti, technické detaily (účet na UFAL, SVN) * 28/02/2009 - opraviť dokumentáciu k ročníkovému projektu, návrh algoritmu na určenie zmysluplnosti * 16/03/2009 - implementácia algoritmu * 13/04/2009 - testovanie na dátach, optimalizácia algoritmu/pravidiel * 5/05/2009 - záver práce na bakalárke - dolaďovanie textu, zdrojových kódov * 20/05/2009 - odovzdanie bakalárskej práce ====== Stretnutia ====== * Mohli by sme sa stretnúť v __pondelok, 18.05.2009__? * Čo by som chcel prebrať: * Ako som zapracoval Vase pripomienky + hodnotenie zvysnych kapitol a priloh * Ukazka webovej stranky - ak pan Kebrt dovtedy odpise :) * Vase vysledky na Vasich testovacich udajoch ====== Text bakalarky ====== * Mozete sem, prosim, napisat ako maju vyzerat zaznamy v Literature - jednak na webove stranky a jednak na Sprievodcu CAK 2.0 * \bibitem[Vidová Hladká, 2008]{hladka:2008} Vidová Hladká Barbora, Jan Hajiè, Jiøí Hana, Jaroslava Hlaváèová, Jiøí Mírovský, Jan Raab. Czech Academic Corpus 2.0. CD-ROM, ISBN: 1-58563-491-3. Linguistic Data Consortium, cat. num.: LDC2008T22, Philadelphia, Pennsylvania, USA, 2008. * \bibitem[CAC 2.0, 2008]{cac:2008} Czech Academic Corpus 2.0 on-line. \tt{http://ufal.mff.cuni.cz/rest/cac/cac\_20.html} * Zoznam obrazkov a tabuliek mam vlozit na zaciatok prace (za obsah), na koniec (za literaturu) alebo na uplny koniec (za prilohy)? * Za obsah. * Literatura je na konci textu pred prilohami. * Praca obsahuje 2 dodatky - morfologicke tabulky a popis CD-ROM * Dobre. To mate popis morfologickych znacek jako latexovskou tabulku? * Privitam akekolvek navrhy/napady na zlepsenie textu :))) * Peclive jsem precetla prvni verzi, kterou jste mi poslal. K te druhe jsem se nedostala, castecne i zamerne. Projedeme tu prvni a uvidite;-)) * Mam do Uvodu napisat presne zadanie prace (z SISu)? * Myslim, ze to neni nutne. Abstrakt slovensky a cesky staci. ====== Testovacie udaje ====== * Dev-subory, ktore ste mi poslala som nevedel spracovat tool_chainom (nevedel som spustit parser), preto som zo suboru vybral cisty text viet a znovu ich prehnal tool_chainom. Tentoraz to tool_chain bol schopny spracovat. * Pri testovani developerskeho suboru som zistil, ze subor meaningless_sentences.csts obsahuje jednak zmysluplne vety (alebo som nezachytil nejaku pravopisnu chybu) a jednak vety, ktore neobsahuju morfologicku, ani syntakticku chybu. * Aha, tak to se na ne rada podivam. - Navrhujem rucne prejst subor a vyhadzat z neho zmysluplne vety. - Navrhujem vytvorit vlastny subor nezmysluplnych viet a pouzit ho ako dev-subor. * Akym sposobom sa chystate testovat SyMorAn na evaluacnych datach? Otestujete nimi aj rocnikovy projekt? Dorucite mi rovno vysledky alebo vystup mojich programov a statistiku si spracujem sam? * Poslu Vam primo vystup Vaseho programu. ====== Vysledky na developerskych testovacich udajoch ====== * Do bakalarky som zaclenil vysledky Moran/Symoran na developerskych udajoch. Su v podstate navlas rovnake, s tym rozdielom, ze Symoran odhalil vacsi pocet chyb. Co sa tyka ale poctu OK/KO viet, ten je rovnaky. * Tu je statistika: * **Meaningless_sentences** '' Pocet spracovanych viet: 101 Pocet OK viet: 70 (69.31%) Pocet KO viet: 31 (30.69%) Pocet chyb spolu: 39 Podiel modulov na objavenych chybach: X 0 (0.00%) A 9 (23.08%) C 1 (2.56%) J 0 (0.00%) N 4 (10.26%) P 8 (20.51%) V 0 (0.00%) R 17 (43.59%)'' * **Meaningfull_sentences** ''Pocet spracovanych viet: 20 Pocet OK viet: 14 (70.00%) Pocet KO viet: 6 (30.00%) Pocet chyb spolu: 7 Podiel modulov na objavenych chybach: X 0 (0.00%) A 1 (14.29%) C 0 (0.00%) J 0 (0.00%) N 2 (28.57%) P 4 (57.14%) V 0 (0.00%) R 0 (0.00%)'' * Do kapitoly Vysledky tak zostava doplnit Vase testovanie :) ====== Technické poznámky k wiki ====== [[user:hladka:vincent-kriz:ukázka podstránky]]