Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:vladimir-rovensky [2008/03/16 14:22] hladka |
user:hladka:vladimir-rovensky [2008/09/29 14:45] vladimir.rovensky |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== | + | ====== |
- | | + | [[external: |
- | *[[http:// | + | |
+ | |||
+ | |||
+ | |||
+ | ====== Dokumentace, | ||
+ | *Zadání ([[http:// | ||
+ | * Specifikace [[http:// | ||
+ | * Dokumentace pilotní verze [[http:// | ||
+ | * **Co vše má obsahovat pilotní verze?** | ||
+ | * **Rešerše** - provést rešerši, jestli se podobným problémem již někdo zabýval; pokud ano, tak pro jaké jazyky a jakou metodologií. Rešerši zpracovat písemně v samostatném souboru. | ||
+ | * **Kód** S dostatečným počtem komentářů. | ||
+ | * **Dokumentace** | ||
+ | * **Uživatelská** - specifikace softwarových a hardwarových požadavků; | ||
+ | * **Programátorská** - popis struktury programu, implementační platformy (MS Windows, Linux, ...), použitých technologií, | ||
+ | * **Testovací data** Věty z Českého akademického korpusu 2.0 | ||
+ | * Smysluplné věty [[http:// | ||
+ | * Nesmysluplné věty [[http:// | ||
+ | |||
====== Schůzky ====== | ====== Schůzky ====== | ||
* 3/3/2008 | * 3/3/2008 | ||
+ | * **navrhuji schuzku 15/5/2008 nekdy dopoledne (je mi to jedno)** | ||
+ | |||
+ | |||
====== Vzkazy ====== | ====== Vzkazy ====== | ||
* 16/3/2008 U mě v kaslíku na sekretariátu ÚFAL (MS, místnost č. 408) máte nachystané CD-ROM (píše se o něm v zadání) a popis morfologických značek. | * 16/3/2008 U mě v kaslíku na sekretariátu ÚFAL (MS, místnost č. 408) máte nachystané CD-ROM (píše se o něm v zadání) a popis morfologických značek. | ||
+ | * 27/5/2008 Nová verze morfologické analýzy, jakožto součást skriptu '' | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Postup ====== | ||
+ | ==Nejasnosti== | ||
+ | * Smim ve vystupu tool-chainu pouzivat tagy <g> a <r> ? __Ne. To jsou informace pro syntax.__ (// | ||
+ | * Je nekde k dispozici cesky preklad tahaku ke znackam tagu <t>, pripadne vysvetlivky k nim ? __Ano - [[http:// | ||
+ | * Pri uvodni schuzce se hovorilo o sade vet urcenych k testovani programu, da se nekde stahnout? __Ano, vety budou k dispozici. Budou to vety z Ceskeho akademickeho korpusu 2.0. Prace na tomto korpusu finisuje. Az se dodelaji vsechny kontroly, tak pripravim dva soubory ve formatu csts: jeden se smysluplnymi vetami a druhy s nesmysluplnymi vetami. Soubory budou k dispozici nejpozdeji pristi tyden ve stredu.__ | ||
+ | * Co by mela splnovat specifikace programu(delka, | ||
+ | | ||
+ | * pri testovani ruznych vstupu jsem narazil na nektere hodnoty na pozici 2 morfologickeho tagu, ktere jsem nenasel v dokumentaci (konkretne hodnota 2), da se nekde sehnat aktualizovany popis znacek? | ||
+ | * tool_chain spravne nerozeznava tvary sloves koncici na -li (budu-li, chcete-li) | ||
+ | |||
+ | ==Prvni naznak algoritmu== | ||
+ | - Rozparsovat vstup z tool-chainu - pravdepodobne staci chytat tagy <f> a v nich <t>, mozna by se hodily i <r> a <g> (id tokenu + ukazatel na nadrazeny token) ale asi to nespada do morfologie. __tool_chain na vystupu nevydava <t>, pokud je v datech <t>, tak obsahuje znacku doplnenou rucne, tedy lidmi. tool_chain dava na vystupu < | ||
+ | Oprava: Ve vystupu tool_chainu najit tag <s> pro vetu a nasledne vybirat tagy <f>, resp <d> pro tokeny, v nich z <MDl> vybrat lemma, z <MDt> tagy. __Ano, pochopil jste strukturu vystupu spravne.__ --- // | ||
+ | - Pokud je veta souvetim, rozdelit na hole vety, cele souveti je smysluplne, pokud jsou smysluplne vsechny hole vety v nem obsazene. Rozdelovani realizovat napr. vyhledanim interpunkce/ | ||
+ | - Dale analyza pouze jednoduche vety. Napadly me dve veci ovlivnujici smysluplnost, | ||
+ | * korektni vztahy mezi slovy - bylo by mozne definovat pro kazdou dvojici slovnich druhu podminky(=hodnoty v tagu <t>), ktere musi byt splneny, aby tato dvojice davala smysl. Napr. pro podstatna a pridavna jmena nejak takhle: | ||
+ | |||
+ | ^ tag ^ podst.jm | ||
+ | | 2 | N | A,U,non(C) | podstatne jmeno vedle pridavneho | | ||
+ | | 3 | = | = | rod musi byt stejny | | ||
+ | | 4 | = | = | cislo musi byt stejne | | ||
+ | | 5 | = | = | pad musi byt stejny | | ||
+ | |6-15 |* | ||
+ | |||
+ | Pokud mame takoveto vztahy, je mozne pro kazde slovo hledat mozne kandidaty, se kterymi by mohlo tvorit smysluplnou dvojici, temto kandidatum pak priradit prioritu napr. podle vzdalenosti techto slov ve vete. Veta je potom smysluplna, pokud kazde slovo je nejak zapojeno (mimo interpunkce atp), jinymi slovy pokud budou slova vrcholy grafu, smysluplne dvojice budou tvorit hrany grafu, pak bude veta smysluplna, pokud bude tento graf souvisly. To ze kandidatu pro kazde slovo muze byt vice vede k moznemu nastavovani " | ||
+ | * slovosled - jednak ve vyse zminenych prioritach podle vzdalenosti slov, dale napr. kontrolovanim, | ||
+ | == Priklad == | ||
+ | Mame vetu "Pokud si chcete něco pouze vyzkoušet, použijte | ||
+ | pískoviště." | ||
+ | |||
+ | ==Hotovo== | ||
+ | * zaklad algoritmu | ||
+ | * konecne se mi povedlo nainstalovat linux, tool_chain i vsechno ostatni potrebne, takze uz vim co parsovat - prislusna sekce postupu(vyse) upravena. Za odmenu jsem si zahral miny. | ||
+ | * dodelal jsem zakladni sadu pravidel pro vztahy mezi slovnimi druhy, ta bude prubezne doplnovana. | ||
+ | * definovan format souboru pro ukladani techto vztahu(txt soubor pro jednoduchou editaci) - pri startu programu se z tohoto souboru nactou podminky pro vznik smysluplnych vztahu. | ||
+ | * Kod : zakladni chodici verze | ||
+ | * Kod : zakladni chodici a odvsivena verze, rozchozeno na Linuxu (aspon myslim :o) | ||
+ | * rozsiren soubor s podminkami(aktualizovan i odkaz) | ||
+ | * par vystupu programu v jeho soucasne podobe je k nahlednuti [[http:// | ||
+ | = 2008/2009 = | ||
+ | * neustale rozsirovan soubor s podminkami | ||
+ | * pridana podpora davkoveho zpracovani | ||
+ | * pridany parametry pro spusteni programu - ignorovani nerozpoznanych tokenu, vyzadovani slovesa, minimalni delka vety atp. | ||
+ | * pridana utilita na editaci souboru s podminkami (java) | ||
+ | * pridana moznost vytvaret skupiny podminek, ktere jsou ve smysluplne vete vyzadovany | ||
+ | |||
+ | ==Dale== | ||
+ | **22/9/08** | ||
+ | * vypisovani kolizi | ||
+ | * SENSE jako webova aplikace | ||
+ | * PREZENTACE | ||
+ | * slides | ||
+ | * formulace ulohy | ||
+ | * smysluplnost vzhledem | ||
+ | * vstupni data - tool_chain (CAK 2.0) | ||
+ | * algoritmus - vyvojovy diagram | ||
+ | * vypocetni slozitost | ||
+ | * evaluace - data od Seznamu, ' | ||
+ | * ukazka | ||
+ | * 13. rijna nanecisto | ||
+ | |||
+ | ====== Otázky ====== | ||
+ | - Jak moc bolestné bylo rozchodit a spustit '' | ||
+ | * tool_chain nebyl tak hrozny, spis me trvalo nainstalovat linux a btred, jsem z windowsu zvykly vsechno instalovat na dve kliknuti a najednou to po me chce kompilator cecka a cosi linkovat a konfigurovat a vubec. To je jako kdybych si chtel koupit grafickou kartu a dosal pul kila kremiku a pajku. Ale aspon jsem se naucil neco noveho. | ||
+ | - Můžete prosím na wiki zveřejnit tu sadu pravidel, kterou jste sestavil? | ||
+ | * mam to napsane na papire, prepisu to rovnou do toho formatu a uploadnu to sem hned jak to budu mit. Predbezna verze souboru je [[http:// |