[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:interset:to-do [2008/03/31 15:01]
zeman
user:zeman:interset:to-do [2008/03/31 16:14]
zeman
Line 13: Line 13:
  
   * Udělat pořádek v zájmenech, determinátorech, tázacích příslovcích apod. U starších ovladačů jsem používal jiný přístup než u novějších (počínaje bulharštinou), mělo by se to sjednotit. Samostatný slovní druh zájmeno přestane existovat.   * Udělat pořádek v zájmenech, determinátorech, tázacích příslovcích apod. U starších ovladačů jsem používal jiný přístup než u novějších (počínaje bulharštinou), mělo by se to sjednotit. Samostatný slovní druh zájmeno přestane existovat.
-    * Přece jen přidat kategorie zájmen? Dánové mají: demonstrativeindefiniteinterrogative/relativepersonalpossessive, reciprocalZrušit podkategorie wh? +    * Reduce value range of ''definiteness'' to ''def'' and ''ind''. Map the other values to the values of ''prontype''. Note that now ''definiteness="ind"'' does not necessarily mean ''prontype="ind"'''definiteness="def"'' does not imply ''prontype="dem"'and ''negativeness="neg"' need not correspond to ''prontype="neg"'. Howeversince for most drivers there is no differencethe driver tester might issue a warning if a decoder does not set these features in parallel. Test the affected drivers thoroughly
-    * Členy zájmena by se možná vůbec měly rozlišit jinakNa nejvyšší úrovni by se rozlišovala substantivnost/atributivnostpak teprve zda to má být raději člen nebo zájmenoPřípadně osobní přivlastňovací zájmena by mohla být zvlášť už na nejvyšší úrovniprotože ta se s žádnými členy plést nebudou.+    * Remove ''pos="det"''. Instead, ''det'' will be ''subpos'' of adjectives, similarly to ''pdt''. Setting ''prontype'' or leaving it empty determines how determiners will be treated in tagsets where there is no such categoryWith empty ''prontype''they will become adjectives. If ''prontype'' is set, they will become pronouns. 
 +    * Remove ''pos="pron"''. Distribute pronouns to nouns, adjectives and adverbsWhen encoding into tagset that distinguishes pronounsdetect pronouns by non-empty ''prontype''.
     * Ze subpos=clit udělat samostatnou vlastnost, aby se usnadnil dotaz, zda je zájmeno osobní. Nebo tuto vlastnost spíš zrušit. Tohle je jednak problém změny práce se zájmeny, jednak připravované koncepce práce se staženými tvary (viz níže).     * Ze subpos=clit udělat samostatnou vlastnost, aby se usnadnil dotaz, zda je zájmeno osobní. Nebo tuto vlastnost spíš zrušit. Tohle je jednak problém změny práce se zájmeny, jednak připravované koncepce práce se staženými tvary (viz níže).
-  * Jemněji roztřídit interpunkciDánové mají vlastní interpunkcipotom symboly (+, $), potom podivnosti, které my ani za interpunkci nepovažujeme. "U-21".+  * Find more fine-grained classification of punctuation and symbolsDanish has punctuation propersymbols (+, $), and strange strings like "U-21".
   * Classification of coordinative conjunctions: copulative, adversative etc. Example: sv::mamba.   * Classification of coordinative conjunctions: copulative, adversative etc. Example: sv::mamba.
-  * Udělat přehled častých prvků, které nemají vlastní slovní druhNapřjak se řeší částice označující infinitiv. +  * Create overview of common elements that do not have their own part of speechE.ginfinitive particles. Specifically, make global classification of "small parts of speech" (pavilón malých šelem :-))especially particlesadpositions and conjunctionspunctuation and foreign words, hyphenated prefixes and abbreviations. (Pronounsdeterminers and numerals are excluded as a separate chapter.) 
-  * Projít jednotlivé sady udělat jakýsi globální přehled třídění malých slovních druhůzejména částicpředložek a spojekmožná samostatně i interpunkce. (Teď nemluvíme o zájmenech a členechty jsou samostatnou kapitolou.) +  * Design methodology for contracted word forms where two different parts of speech have merged in one wordCurrently this is solved at different places in different waysExamples: Czech "proň", "bylť", German "zum" and probably other phenomena in other languages. Enclitical pronouns are special case. In some languages they can or must join verb or other words (Czech "byls", "sis", "tys", "žes"; Spanish "despiértate", "despertarse", "démelo"). Similar problem (but to much greater extent) arises in Arabic where the grammar often requires small words being glued to big ones (e.g. "wa" (conjunction), "al" (article) etc.)
-  * Vymyslet koncepci pro stažené (contracted) tvary, kde se do jednoho slova dostaly dva různé slovní druhyZatím to na různých místech řeším různěPatří sem české "proň", "bylť", německé "zum"nejspíš další jevy v dalších jazycích. Zvláštním případem jsou také zájmena-klitika, která se v některých jazycích mohou nebo musí spojit se slovesem či dalšími slovními druhy (české "byls", "sis", "tys", "žes"; španělské "despiértate", "despertarse", "démelo"). V arabštině je podobný problém mnohem větších rozměrů, protožse tam běžně lepí malá slova k velkým (napřspojka "wa", člen "al" aj.)+
  
 ==== Things to think about (not sure that these changes should really be made): ==== ==== Things to think about (not sure that these changes should really be made): ====

[ Back to the navigation ] [ Back to the content ]