Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
user:zeman:interset:to-do [2007/10/01 17:11] zeman |
user:zeman:interset:to-do [2014/07/25 13:58] (current) zeman Autoři u cs::ajka. |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| ====== To do ====== | ====== To do ====== | ||
| - | ===== Infrastructure | + | ===== Interset 2.0 ===== |
| - | ==== Strict encoding ==== | + | * Opravit češtinu (UTF8) v komentáři ABSTRACT pro Pod:: |
| + | * A další věc v POD: U CS::Ajka mám dvě sekce AUTHOR. Jednu vloženou ručně, kde je navíc Petr Pořízka a Markus Schäfer, a druhou vloženou automaticky, | ||
| + | * Nějak lépe vyřešit stažené tvary. Aspoň nový rys, aby to nebylo v other. České příklonné " | ||
| + | * Projít ''### | ||
| + | * Pokud možno zrušit synpos. Mám spočítáno, | ||
| + | * Číslovky více méně předělat po vzoru zájmen, pouze základní číslovky si ponechají slovní druh '' | ||
| + | * Přenést všechny ovladače, které vznikly v Treexu a do SVN Intersetu se zatím nedostaly. | ||
| + | * Oprášit pravidelné kopírování wiki stránek Intersetu do repozitáře SVN (resp. Redmine). Nyní je tam zastaralá kopie. | ||
| + | * Uspořádat seminář a brainstorming pro zájemce o Interset. | ||
| + | * Do té doby prozkoumat Martinovy návrhy a udělat si na ně názor. | ||
| + | * Sepsat manuál pro nové autory ovladačů. | ||
| + | * Jak prezentovat Interset neperlovému světu? Např. tabulky pro decode(). Jde o to, aby lidé mohli Interset snadno použít i v Pythonu, Javě, C a jinde. | ||
| + | * Sem patří i Tagzplorer! | ||
| - | The encoder should be able to work in two modes: | + | ===== Infrastructure ===== |
| - | * Preserving as much information as possible, even if the resulting tag is a new (unexpected by the designers of the tagset) combination of feature values. | + | |
| - | * Strictly keeping the original set of possible tags, by forcing selected features to compatible values. This should be default, if available. | + | |
| - | Although this requirement has been known since the very beginning of this work, no driver so far implements strict | + | * Query feature value: a shared function detects array and if it is array, searches it for a given value. |
| + | * New test in driver-test.pl: | ||
| + | * Extend the '' | ||
| + | * Enable checking out the latest development version directly from the Subversion repository. | ||
| + | * Create a web interface to DZ Interset. The user will be able to enter a tag from an arbitrary set (the interface will be able to recognize the set or sets) and get a detailed description in English or Czech of the feature values. Features and values could link to Wikipedia explanations. Conversions to other tagsets (including round-trip | ||
| - | The process of strict encoding could be automated using the list() function of the driver. A service function could decode every possible tag (as listed by list()) | + | ===== Features |
| - | The graph would not be constructed in full. Such a process would be too costly. Instead, every feature would be given a numeric priority, and there would be a total ordering of the features according to their priorities. The encoding process would always consider | + | * Normalize processing of pronouns, determiners, |
| + | * Remove '' | ||
| + | * Remove '' | ||
| + | * Move '' | ||
| + | * Create new value '' | ||
| + | * Create a new feature or some other means of marking that a Czech pronoun contains an encliticised form of the 2nd person of the auxiliary verb " | ||
| + | * Find more fine-grained classification of punctuation and symbols. Danish has punctuation proper, symbols (+, $), and strange strings like " | ||
| + | * Classification of coordinative conjunctions: | ||
| + | * Create overview of common elements that do not have their own part of speech. E.g. infinitive particles. Specifically, | ||
| + | * Create an overview of verb forms, moods and tenses in various languages, and their representation in DZ Interset. | ||
| + | * Design methodology for contracted word forms where two different parts of speech have merged in one word. Currently this is solved at different places in different ways. Examples: Czech " | ||
| - | How will the strict encoding look in practice? A service function will read the feature tree and a set of feature values | + | ==== Things |
| - | 2 druhy striktního kódování: | + | |
| - | | + | * Příčestí by mělo mít vlastní slovní druh. S tím, že některé sady ho řadí pod sloveso a jiné pod přídavné jméno, jsou jenom problémy. |
| - | * Mírnější přístup tohle nepožaduje, ale pomůže překódovat hodnoty, které | + | * Pokud se osvědčí nové třídění zájmen, posvítit si i na číslovky. Některé přesunout k zájmenům (" |
| + | * Předělat binární vlastnosti na hodnoty " | ||
| + | * Přejmenovat number = plu na plur? | ||
| + | * Zrušit '' | ||
| + | * Define new value //pluralia tantum// ('' | ||
| - | ==== Service functions ==== | ||
| - | |||
| - | * Check whether decode() sets only known features. | ||
| - | * Check whether decode() sets features only to known values. | ||
| - | * Unset features: | ||
| - | * Return list of unset features. | ||
| - | * Fill one or all unset features with default values. | ||
| - | * Fill one or all unset features with arrays of all possible values. | ||
| - | * Query feature value: a shared function detects array and if it is array, searches it for a given value. | ||
| - | * Společná funkce: před encode(): máme-li list(), pravděpodobně umíme doplnit povinné neznámé vlastnosti na základě známých. (To nám výrazně usnadní strict encoding.) | ||
| - | |||
| - | ===== Features and values ===== | ||
| - | |||
| - | * Přejmenovat compdeg = norm na pos (pozitiv). | ||
| - | * Přejmenovat number=plu na plur? | ||
| - | * Sloučit vlastnosti verbform a mood. | ||
| - | * Udělat z poss opět jenom subpos? | ||
| - | * Přece jen přidat kategorie zájmen? Dánové mají: demonstrative, | ||
| - | * Ze subpos=clit udělat samostatnou vlastnost, aby se usnadnil dotaz, zda je zájmeno osobní. | ||
| - | * Udělat tu dotazovací funkci (viz výše)! Kromě technické práce s poli ještě přidat hierarchii hodnot: když se někdo ptá na " | ||
| - | * Obdobně pro funkci decode() udělat servisní funkci, která nabídne hodnoty pro nevyplněné vlastnosti na základě jiných vyplněných (např. ukazovací zájmeno implikuje určitost a atributivnost). Musí se to ale pořádně promyslet - např. pokud jazyk nemá compdeg=abs, | ||
| - | * Udělat přehled častých prvků, které nemají vlastní slovní druh. Např. jak se řeší částice označující infinitiv. | ||
| - | * Jemněji roztřídit interpunkci. Dánové mají vlastní interpunkci, | ||
| - | * Předělat binární vlastnosti na hodnoty " | ||
| - | * Přejmenovat compdeg na degree. | ||
| - | * Příčestí by mělo mít vlastní slovní druh. S tím, že některé sady ho řadí pod sloveso a jiné pod přídavné jméno, jsou jenom problémy. | ||
| - | * Subjektform a objektform u švédských zájmen asi není samostatná vlastnost! Mělo by se to prohlásit za pády (nominativ a akuzativ)! | ||
| - | * Členy a zájmena by se možná vůbec měly rozlišit jinak. Na nejvyšší úrovni by se rozlišovala substantivnost/ | ||
| ===== Specific drivers ===== | ===== Specific drivers ===== | ||
| * cs::pdt - reimplement "type L" pronouns as collective pronouns (introduced due to Bulgarian) | * cs::pdt - reimplement "type L" pronouns as collective pronouns (introduced due to Bulgarian) | ||
| - | |||
| - | ===== Paper notes ===== | ||
| - | |||
| - | ==== Time needed for tag set conversion ==== | ||
| - | |||
| - | Poznámky o časové náročnosti konverze morfologických značek | ||
| - | ----------------------------------------------------------- | ||
| - | |||
| - | Ruský treebank (nejen značky, ale vůbec převod formátu): | ||
| - | 12:36 | ||
| - | |||
| - | Arabské značky (Otovy i Buckwalterovy, | ||
| - | 4:45+1+1:40 = 7:25 | ||
| - | |||
| - | České značky PDT (přes 4000 značek; jádro Intersetu vzniklo jako vedlejší produkt, když jsem dělal tohle) | ||
| - | asi 2 dny, tedy dejme tomu 18 hodin | ||
| - | |||
| - | Dánské značky DDT/Parole (144 značek s košatým popisem) | ||
| - | asi 7 hodin | ||
| - | |||
| - | Švédské značky Mamba (48 značek) | ||
| - | asi 3 hodiny | ||
| - | |||
| - | Penn Treebank (36 značek) | ||
| - | asi 3 hodiny, ale tady jsem to ještě neměřil, takže to je jen hrubý zpětný odhad | ||
| - | |||
| - | Hajičovy švédské značky | ||
| - | 0:32 - tady zjevně chybí úplná statistika | ||
| - | |||
| - | Arabské značky CoNLL | ||
| - | 4: | ||
| - | |||
| - | České značky PDT (CoNLL verze? Nebo to jsou jen opravy, když jsem začal ovladače testovat?) | ||
| - | 1: | ||
| - | |||
| - | Bulharské značky CoNLL | ||
| - | 0: | ||
| - | (ale u bulharštiny jsem se dost natrápil s jevy, které do té doby nebyly v intersetu podchycené) | ||
| - | |||
| - | Anglické značky CoNLL | ||
| - | 0:48 - možná tady chybí statistika, ale možná taky ne, protože stačilo upravit existující ovladač Penn Treebanku, ne? | ||
| - | |||
| - | Žádné z výše uvedených převodů (tedy vše napsané před říjnem 2007) ještě neměly k dispozici chytré funkce pro nahrazování nepovolených hodnot. | ||
