This is an old revision of the document!
Table of Contents
Vitajte na Wikistránke k bakalárskej práci
Určování syntaktické smysluplnosti českých vět
Podrobné informácie o práci
- …sú uvedené na stránkach SIS UK: [https://is.cuni.cz/studium/dipl_st/index.php?doo=detail&did=66314]
- …na ročníkovom projekte, ktorý predchádzal bakalárskej práci nájdete tu: [http://vincwiki.php5.cz/index.php/Ro%C4%8Dn%C3%ADkov%C3%BD_projekt]
Plánovaný harmonogram
- 31/01/2009 - naštudovanie výstupu tool_chainu, diskusia nad riešením, definovanie zmysluplnosti, technické detaily (účet na UFAL, SVN)
- 28/02/2009 - opraviť dokumentáciu k ročníkovému projektu, návrh algoritmu na určenie zmysluplnosti
- 16/03/2009 - implementácia algoritmu
- 13/04/2009 - testovanie na dátach, optimalizácia algoritmu/pravidiel
- 5/05/2009 - záver práce na bakalárke - dolaďovanie textu, zdrojových kódov
- 20/05/2009 - odovzdanie bakalárskej práce
Stretnutia
- Mohli by sme sa stretnúť v pondelok, 09.05.2009?
- 9. 5. uz bylo v sobotu, ale pocitam se setkanim v pondeli 11.)
- Čo by som chcel prebrať:
- Predstavenie a ukazka aplikacie SyMorAn (prinesiem notebook)
- prepinace
- 3 mody vystupu
- morfologicke moduly
- syntakticky modul
- 4 urovne chyb
- zaverecna statistika
- Diskusia nad textom prace
- Predstavenie webovej stranky (ak ju to pondelka stihnem napisat)
Text bakalarky
- Mozete sem, prosim, napisat ako maju vyzerat zaznamy v Literature - jednak na webove stranky a jednak na Sprievodcu CAK 2.0
- \bibitem[Vidová Hladká, 2008]{hladka:2008} Vidová Hladká Barbora, Jan Hajiè, Jiøí Hana, Jaroslava Hlaváèová, Jiøí Mírovský, Jan Raab. Czech Academic Corpus 2.0. CD-ROM, ISBN: 1-58563-491-3. Linguistic Data Consortium, cat. num.: LDC2008T22, Philadelphia, Pennsylvania, USA, 2008.
- \bibitem[CAC 2.0, 2008]{cac:2008} Czech Academic Corpus 2.0 on-line. \tt{http://ufal.mff.cuni.cz/rest/cac/cac\_20.html}
- Zoznam obrazkov a tabuliek mam vlozit na zaciatok prace (za obsah), na koniec (za literaturu) alebo na uplny koniec (za prilohy)?
- Za obsah.
- Literatura je na konci textu pred prilohami.
- Praca obsahuje 2 dodatky - morfologicke tabulky a popis CD-ROM
- Dobre. To mate popis morfologickych znacek jako latexovskou tabulku?
- Privitam akekolvek navrhy/napady na zlepsenie textu :)))
- Peclive jsem precetla prvni verzi, kterou jste mi poslal. K te druhe jsem se nedostala, castecne i zamerne. Projedeme tu prvni a uvidite;-))
- Mam do Uvodu napisat presne zadanie prace (z SISu)?
- Myslim, ze to neni nutne. Abstrakt slovensky a cesky staci.
Testovacie udaje
- Dev-subory, ktore ste mi poslala som nevedel spracovat tool_chainom (nevedel som spustit parser), preto som zo suboru vybral cisty text viet a znovu ich prehnal tool_chainom. Tentoraz to tool_chain bol schopny spracovat.
- Pri testovani developerskeho suboru som zistil, ze subor meaningless_sentences.csts obsahuje jednak zmysluplne vety (alebo som nezachytil nejaku pravopisnu chybu) a jednak vety, ktore neobsahuju morfologicku, ani syntakticku chybu.
- Aha, tak to se na ne rada podivam.
- Navrhujem rucne prejst subor a vyhadzat z neho zmysluplne vety.
- Navrhujem vytvorit vlastny subor nezmysluplnych viet a pouzit ho ako dev-subor.
- Akym sposobom sa chystate testovat SyMorAn na evaluacnych datach? Otestujete nimi aj rocnikovy projekt? Dorucite mi rovno vysledky alebo vystup mojich programov a statistiku si spracujem sam?
- Poslu Vam primo vystup Vaseho programu.
Vysledky na vlastnych testovacich udajoch
- Pripravil som subor vlastnych testovacich udajov, ktore by sme mohli pouzit namiesto dev-suborov
- Subory najdete na http://vincworld.xf.cz/RP/pohadka.ko a http://vincworld.xf.cz/RP/pohadka.ok
- Jak jste ty soubory vygeneroval?
- Tu su vysledky:
- Aplikacia MorAn (RP)
- Subor KO: 60%
- Subor OK: 72%
- Aplikacia SyMorAn
- Subor KO: 66%
- Subor OK: 66%
Technické detaily
- Použití SVN serveru na ÚFAL
/home/svn/repos/bc_kriz/, user: kriz, passwd: bc_kriz
- vlastní účet v síti ÚFAL nepotřebujete, budete commitovat do své SVN a prohlížet si ji na webu. Na
https://svn.ms.mff.cuni.cz/projects/
je Váš projekt videt - vizhttps://svn.ms.mff.cuni.cz/projects/bc_kriz, user: ufal, passwd: maly_lingvista
. Tady budou časem jednotlivé soubory v poslední verzi, s možností prohlížet ty starší:https://svn.ms.mff.cuni.cz/projects/bc_kriz/browser
. - Co se týče subverse, tak ani na ni nepotřebujete mít přístup na síť ÚFAL. Potřebujete mít nějakého klienta (standardní svn na linuxu, nebo třeba SVN Tortoise na windows). A rovnou můžete začít se subversí, asi nějaký
svn import
asvn checkout
… Zde je info:http://svnbook.red-bean.com/en/1.5/svn.tour.importing.html
. Repository má adresusvn://svn.ms.mff.cuni.cz/bc_kriz
, takžecheckout
třebasvn checkout svn://svn.ms.mff.cuni.cz/bc_kriz/trunk his_local_directory