[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:interset:to-do [2014/06/18 23:04]
zeman set() a get() snad opraveno.
user:zeman:interset:to-do [2014/07/09 12:13]
zeman cs::ajka
Line 3: Line 3:
 ===== Interset 2.0 ===== ===== Interset 2.0 =====
  
-  * Přesunout ovladače konkrétních sad značek o patro nížnapřz ''Lingua::Interset::EN::Penn'' se stane ''Lingua::Interset::Tagset::EN::Penn''Je to sice nechutně dlouhéale od toho nás stejně odstíní obecné funkce v hlavním modulu Intersetu. Naopak kdybychom to takhle nechalitak máme zaděláno na problém s rozpoznáním, který modul je ovladač a který je něco jiného. A ten problém může s plnou silou udeřit později, až už budeme mít třeba 20 ovladačů a bude mnohem obtížjší to předělatTřeba pokud se rozhodnu mít ještě nějakou další předem neohraničenou množinu modulůkteré se budou třídit podle jazyka.+  * cs::ajka: odstranit příklady ze seznamu povolených značek. Uklidit pomocné neverzované souborykteré vznikly, když jsem zkoumal Majku. 
 +  * Opravit práci s rysem ''other'' v metodě ''_encoding_step()'' třídy ''Atom''Momentálně se nemůže použít metoda ''$fs->get_other_for_tagset()''protože atom nevíve kterém tagsetu byl použit. Taky by se pak hodnoty other neměly testovat prostým řetězcovým porovnáním, ale mělo by se zkontrolovat, že nejde o složitější strukturu, a pokud ano, tak ji porovnat hloubkově. Na hloubkové porovnání struktur už tam kde nějakou funkci mám! 
 +  * Nějak lépe vyřešit stažené tvary. Aspoň nový rys, aby to nebylo v other. České íklonné "-s" už má rys ve dvou českých sadách (multext a ajka)Taky mu nastavit 2. osobu, singulár a aux. Podobně je na tom "proň", "zač", "-ť". V mčině "zum", "zur"... Ve francouzštině "du", "aux"... Naopak arabské "al-" sem asi nepatří, to lze prostě chápat jako morfém určitostikterý se nikdy nevyskytuje jako samostatné slovo. 
 +  * Zrychlit české ovladače. Možná odstranit dvojité dědění v CoNLL 2009. cs::pdt má 4294 značek a trvá 1:12 min. cs::conll má 5150 značek a trvá 1:31 min. cs::conll2009 má také 5150 značek, ale trvá 3:30 min!
   * Projít ''###!!!'', zejména ve FeatureStructure:   * Projít ''###!!!'', zejména ve FeatureStructure:
-    * Nemohli bychom zrušit rys synpos? +    * Pokud možno zrušit synpos. Mám spočítáno, že se používá v 21 sadách, ale nevyplývá z toho, zda by se bez něj tyto sady obešly. 
-    * Co s číslovkami?+    * Číslovky více méně předělat po vzoru zájmen, pouze základní číslovky si ponechají slovní druh ''num''.
   * Přenést všechny ovladače, které vznikly v Treexu a do SVN Intersetu se zatím nedostaly.   * Přenést všechny ovladače, které vznikly v Treexu a do SVN Intersetu se zatím nedostaly.
   * Oprášit pravidelné kopírování wiki stránek Intersetu do repozitáře SVN (resp. Redmine). Nyní je tam zastaralá kopie.   * Oprášit pravidelné kopírování wiki stránek Intersetu do repozitáře SVN (resp. Redmine). Nyní je tam zastaralá kopie.

[ Back to the navigation ] [ Back to the content ]