Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:zeman:interset:to-do [2014/06/18 23:04] zeman set() a get() snad opraveno. |
user:zeman:interset:to-do [2014/07/09 12:13] zeman cs::ajka |
===== Interset 2.0 ===== | ===== Interset 2.0 ===== |
| |
* Přesunout ovladače konkrétních sad značek o patro níž, např. z ''Lingua::Interset::EN::Penn'' se stane ''Lingua::Interset::Tagset::EN::Penn''. Je to sice nechutně dlouhé, ale od toho nás stejně odstíní obecné funkce v hlavním modulu Intersetu. Naopak kdybychom to takhle nechali, tak máme zaděláno na problém s rozpoznáním, který modul je ovladač a který je něco jiného. A ten problém může s plnou silou udeřit později, až už budeme mít třeba 20 ovladačů a bude mnohem obtížnější to předělat. Třeba pokud se rozhodnu mít ještě nějakou další předem neohraničenou množinu modulů, které se budou třídit podle jazyka. | * cs::ajka: odstranit příklady ze seznamu povolených značek. Uklidit pomocné neverzované soubory, které vznikly, když jsem zkoumal Majku. |
| * Opravit práci s rysem ''other'' v metodě ''_encoding_step()'' třídy ''Atom''. Momentálně se nemůže použít metoda ''$fs->get_other_for_tagset()'', protože atom neví, ve kterém tagsetu byl použit. Taky by se pak hodnoty other neměly testovat prostým řetězcovým porovnáním, ale mělo by se zkontrolovat, že nejde o složitější strukturu, a pokud ano, tak ji porovnat hloubkově. Na hloubkové porovnání struktur už tam někde nějakou funkci mám! |
| * Nějak lépe vyřešit stažené tvary. Aspoň nový rys, aby to nebylo v other. České příklonné "-s" už má rys ve dvou českých sadách (multext a ajka). Taky mu nastavit 2. osobu, singulár a aux. Podobně je na tom "proň", "zač", "-ť". V němčině "zum", "zur"... Ve francouzštině "du", "aux"... Naopak arabské "al-" sem asi nepatří, to lze prostě chápat jako morfém určitosti, který se nikdy nevyskytuje jako samostatné slovo. |
| * Zrychlit české ovladače. Možná odstranit dvojité dědění v CoNLL 2009. cs::pdt má 4294 značek a trvá 1:12 min. cs::conll má 5150 značek a trvá 1:31 min. cs::conll2009 má také 5150 značek, ale trvá 3:30 min! |
* Projít ''###!!!'', zejména ve FeatureStructure: | * Projít ''###!!!'', zejména ve FeatureStructure: |
* Nemohli bychom zrušit rys synpos? | * Pokud možno zrušit synpos. Mám spočítáno, že se používá v 21 sadách, ale nevyplývá z toho, zda by se bez něj tyto sady obešly. |
* Co s číslovkami? | * Číslovky více méně předělat po vzoru zájmen, pouze základní číslovky si ponechají slovní druh ''num''. |
* Přenést všechny ovladače, které vznikly v Treexu a do SVN Intersetu se zatím nedostaly. | * Přenést všechny ovladače, které vznikly v Treexu a do SVN Intersetu se zatím nedostaly. |
* Oprášit pravidelné kopírování wiki stránek Intersetu do repozitáře SVN (resp. Redmine). Nyní je tam zastaralá kopie. | * Oprášit pravidelné kopírování wiki stránek Intersetu do repozitáře SVN (resp. Redmine). Nyní je tam zastaralá kopie. |