Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:interset:to-do [2008/03/14 11:21] zeman SVN commit pending. |
user:zeman:interset:to-do [2014/07/25 13:58] (current) zeman Autoři u cs::ajka. |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== To do ====== | ====== To do ====== | ||
+ | |||
+ | ===== Interset 2.0 ===== | ||
+ | |||
+ | * Opravit češtinu (UTF8) v komentáři ABSTRACT pro Pod:: | ||
+ | * A další věc v POD: U CS::Ajka mám dvě sekce AUTHOR. Jednu vloženou ručně, kde je navíc Petr Pořízka a Markus Schäfer, a druhou vloženou automaticky, | ||
+ | * Nějak lépe vyřešit stažené tvary. Aspoň nový rys, aby to nebylo v other. České příklonné " | ||
+ | * Projít ''### | ||
+ | * Pokud možno zrušit synpos. Mám spočítáno, | ||
+ | * Číslovky více méně předělat po vzoru zájmen, pouze základní číslovky si ponechají slovní druh '' | ||
+ | * Přenést všechny ovladače, které vznikly v Treexu a do SVN Intersetu se zatím nedostaly. | ||
+ | * Oprášit pravidelné kopírování wiki stránek Intersetu do repozitáře SVN (resp. Redmine). Nyní je tam zastaralá kopie. | ||
+ | * Uspořádat seminář a brainstorming pro zájemce o Interset. | ||
+ | * Do té doby prozkoumat Martinovy návrhy a udělat si na ně názor. | ||
+ | * Sepsat manuál pro nové autory ovladačů. | ||
+ | * Jak prezentovat Interset neperlovému světu? Např. tabulky pro decode(). Jde o to, aby lidé mohli Interset snadno použít i v Pythonu, Javě, C a jinde. | ||
+ | * Sem patří i Tagzplorer! | ||
===== Infrastructure ===== | ===== Infrastructure ===== | ||
- | * 14.3.2008: During the last two weeks I have made substantial changes to all the drivers due to extensive driver testing and new strict encoding procedures. After all tests pass successfully, | ||
- | * Clean up '' | ||
* Query feature value: a shared function detects array and if it is array, searches it for a given value. | * Query feature value: a shared function detects array and if it is array, searches it for a given value. | ||
* New test in driver-test.pl: | * New test in driver-test.pl: | ||
+ | * Extend the '' | ||
+ | * Enable checking out the latest development version directly from the Subversion repository. | ||
+ | * Create a web interface to DZ Interset. The user will be able to enter a tag from an arbitrary set (the interface will be able to recognize the set or sets) and get a detailed description in English or Czech of the feature values. Features and values could link to Wikipedia explanations. Conversions to other tagsets (including round-trip conversions) will be provided and all tags will link to similar descriptions of their own. Example words will be provided for every tag. The interface will also be able to read whole files in common corpus formats (CoNLL, PML, CSTS, RDT, TEI, Penn, Brill...), highlight word forms / lemmas / tags and link to tag descriptions. Conversion of tags in whole files will be provided. | ||
===== Features and values ===== | ===== Features and values ===== | ||
- | * Udělat pořádek v zájmenech, determinátorech, tázacích příslovcích apod. U starších ovladačů jsem používal jiný přístup než u novějších | + | * Normalize processing of pronouns, determiners, interrogative adverbs etc. Old drivers use a different approach from the new ones (beginning with Bulgarian). Pronoun as an independent part of speech will cease to exist. |
- | * Přece jen přidat kategorie zájmen? Dánové mají: demonstrative, indefinite, interrogative/ | + | * Remove '' |
- | * Členy | + | * Remove '' |
- | * Subjektform a objektform u švédských zájmen asi není samostatná vlastnost! Mělo by se to prohlásit za pády (nominativ a akuzativ)! | + | * Move '' |
- | * Přejmenovat compdeg | + | * Create new value '' |
- | * Přejmenovat compdeg na degree. | + | * Create |
- | * Přejmenovat number | + | * Find more fine-grained classification of punctuation and symbols. Danish has punctuation proper, symbols |
- | * Sloučit vlastnosti verbform | + | |
- | * Udělat z poss opět jenom subpos? | + | |
- | * Ze subpos=clit udělat samostatnou vlastnost, aby se usnadnil dotaz, zda je zájmeno osobní. | + | |
- | * Obdobně pro funkci decode() udělat servisní funkci, která nabídne hodnoty pro nevyplněné vlastnosti na základě jiných vyplněných (např. ukazovací zájmeno implikuje určitost | + | |
- | * Udělat přehled častých prvků, které nemají vlastní slovní druh. Např. jak se řeší částice označující infinitiv. | + | |
- | * Jemněji roztřídit interpunkci. Dánové mají vlastní interpunkci, potom symboly | + | |
- | * Předělat binární vlastnosti na hodnoty " | + | |
- | * Příčestí by mělo mít vlastní slovní druh. S tím, že některé sady ho řadí pod sloveso a jiné pod přídavné jméno, jsou jenom problémy. | + | |
* Classification of coordinative conjunctions: | * Classification of coordinative conjunctions: | ||
+ | * Create overview of common elements that do not have their own part of speech. E.g. infinitive particles. Specifically, | ||
+ | * Create an overview of verb forms, moods and tenses in various languages, and their representation in DZ Interset. | ||
+ | * Design methodology for contracted word forms where two different parts of speech have merged in one word. Currently this is solved at different places in different ways. Examples: Czech " | ||
+ | |||
+ | ==== Things to think about (not sure that these changes should really be made): ==== | ||
+ | |||
+ | * Sloučit vlastnosti '' | ||
+ | * Příčestí by mělo mít vlastní slovní druh. S tím, že některé sady ho řadí pod sloveso a jiné pod přídavné jméno, jsou jenom problémy. | ||
+ | * Pokud se osvědčí nové třídění zájmen, posvítit si i na číslovky. Některé přesunout k zájmenům (" | ||
+ | * Předělat binární vlastnosti na hodnoty " | ||
+ | * Přejmenovat number = plu na plur? | ||
+ | * Zrušit '' | ||
+ | * Define new value //pluralia tantum// ('' | ||
+ | |||
===== Specific drivers ===== | ===== Specific drivers ===== |