Differences

This shows you the differences between two versions of the page.

--- external:vladimir.rovensky:start [2008/03/22 17:59]
vladimir.rovensky
+++ external:vladimir.rovensky:start [2008/03/23 15:54]
vladimir.rovensky
@@ Line 2: / Line 2: @@
 Stránka RP rozeznání smysluplnosti české věty.
 ==Postup==
-* Zalozena stránka :o)
+  * Zalozena stránka :o)
+  * Formát CSTS nastudován a primerene pochopen
+==TODO==
+  * Rozmyslet zakladni algoritmus
 ==Nejasnosti==
+  * Smim ve vystupu tool-chainu pouzivat tagy <g> a <r> ?
+  * Je nekde k dispozici cesky preklad tahaku ke znackam tagu <t>, pripadne vysvetlivky k nim ?
+==Prvni naznak algoritmu==
+  - Rozparsovat vstup z tool-chainu - pravdepodobne staci chytat tagy <f> a v nich <t>, mozna by se hodily i <r> a <g> (id tokenu + ukazatel na nadrazeny token) ale asi to nespada do morfologie.
+  - Pokud je veta souvetim, rozdelit na hole vety, cele souveti je smysluplne, pokud jsou smysluplne vsechny hole vety v nem obsazene. Rozdelovani realizovat napr. vyhledanim interpunkce/spojek/predlozek... ty rozdeli souveti na nekolik casti, ty casti jez obsahuji sloveso jsou vety jednoduche.
+  - Dale analyza pouze jednoduche vety. Napadly me dve veci ovlivnujici smysluplnost, ktere by se nejspis daly implementovat:
+    * korektni vztahy mezi slovy - bylo by mozne definovat pro kazdou dvojici slovnich druhu podminky(=hodnoty v tagu <t>), ktere musi byt splneny, aby tato dvojice davala smysl. Napr. pro podstatna a pridavna jmena nejak takhle:
+^ tag    ^ podst.jm    ^ prid.jm    ^ znamena ^
+| 2    | N        | A,U,non(C) | podstatne jmeno vedle pridavneho |
+| 3    | =  | =   | rod musi byt stejny |
+| 4    | =  | =   | cislo musi byt stejne |
+| 5    | =  | =   | pad musi byt stejny |
+|6-15  |*   |*    | na ostatnich nezalezi |
+Pokud mame takoveto vztahy, je mozne pro kazde slovo hledat mozne kandidaty, se kterymi by mohlo tvorit smysluplnou dvojici, temto kandidatum pak priradit prioritu napr. podle vzdalenosti techto slov ve vete. Veta je potom smysluplna, pokud kazde slovo je nejak zapojeno (mimo interpunkce atp), jinymi slovy pokud budou slova vrcholy grafu, smysluplne dvojice budou tvorit hrany grafu, pak bude veta smysluplna, pokud bude tento graf souvisly. To ze kandidatu pro kazde slovo muze byt vice vede k moznemu nastavovani "prisnosti" procedury, cim min prisna, tim vic kandidatu(hran) bude brano v potaz.
+    * slovosled - jednak ve vyse zminenych prioritach podle vydalenosti slov, dale napr. kontrolovanim, ze veta dodrzuje nejakou zakladni strukturu ceskeho slovosledu. Napr. ve vyse zminenem vztahu kontrolovat, ze pridavne jmeno je pred podstatnym a pokud je to obracene, musi byt variant = 2,3 nebo 4.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences