[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:interset:brainstorming [2008/04/24 17:26]
zeman Quantos.
user:zeman:interset:brainstorming [2009/04/04 18:46]
zeman End of numeral survey.
Line 248: Line 248:
  
 Tohle celé by mohlo být zachyceno v nějakém rysu numtype (analogie k prontype), kde by bylo card, ord, mult atd. Přijde mi ale trochu divné označovat neurčité číslovky za kardinální čísla. Další možnost je advtype (popř. reftype), kde by bylo vedle loc, tim a man taky qnt (quantity). Problém s pojmenováním rysu tkví v tom, že v češtině máme druhové číslovky kolikerý apod., které moc nepoužíváme, zatímco v portugalštině se číslovka kolik často používá jako determinátor, který se shoduje s počítaným podstatným jménem v rodě a čísle (quantos, quantas). Zatím tedy budu podobná slova odlišovat pomocí subpos = card, ale výhledově vymyslím něco lepšího. Tohle celé by mohlo být zachyceno v nějakém rysu numtype (analogie k prontype), kde by bylo card, ord, mult atd. Přijde mi ale trochu divné označovat neurčité číslovky za kardinální čísla. Další možnost je advtype (popř. reftype), kde by bylo vedle loc, tim a man taky qnt (quantity). Problém s pojmenováním rysu tkví v tom, že v češtině máme druhové číslovky kolikerý apod., které moc nepoužíváme, zatímco v portugalštině se číslovka kolik často používá jako determinátor, který se shoduje s počítaným podstatným jménem v rodě a čísle (quantos, quantas). Zatím tedy budu podobná slova odlišovat pomocí subpos = card, ale výhledově vymyslím něco lepšího.
 +
 +===== Numerals =====
 +
 +===== Approaches taken in various tagsets =====
 +
 +==== cs::pdt ====
 +
 +Many types of numerals. Numeral types (e.g. cardinal vs. ordinal) and pronoun types (e.g. indefinite, interrogative) are mixed together. There are following subclasses:
 +
 +''C='' = numerals written using digits ("14")
 +''C}'' = Roman numerals ("MCMLXXI")
 +''Cl'' = cardinal numbers ("jeden", "dva", "tři", "čtyři")
 +''Cn'' = cardinal numbers ("pět", "šest", "sedm", ...)
 +''C?'' = interrogative or relative ("kolik")
 +''Ca'' = indefinite ("několik", "mnoho", "málo", "kdovíkolik", "tolik")
 +''Cy'' = fraction denominators ("polovina", "třetina", "čtvrtina", "setina", "tisícina", ...)
 +''Cj'' = generic numerals ("čtvero", "patero", "desatero")
 +''Ck'' = generic numerals ("čtvery", "patery", "desatery")
 +''Cr'' = ordinal numbers ("první", "druhý", "třetí", "čtvrtý", "pátý", "stý", "tisící", ...)
 +''Cz'' = interrogative or relative ordinals ("kolikátý")
 +''Cd'' = generic numerals ("jedny", "dvojí", "desaterý")
 +''Ch'' = generic numerals ("jedny", "nejedny")
 +''Cw'' = indefinite ordinals ("nejeden", "tolikátý")
 +''Cv'' = multiplicative adverbial numerals ("jedenkrát", "dvakrát", "třikrát", "stokrát", ...)
 +''Cu'' = interrogative or relative multiplicative adverbial numerals ("kolikrát")
 +''Co'' = indefinite multiplicative adverbial numerals ("několikrát", "mnohokrát", "tolikrát", ...)
 +''C3'' = abbreviated numeral
 +
 +==== cs::multext ====
 +
 +There are two orthogonal sets of subclasses:
 +
 +''Mc'' = cardinal numbers
 +''Mo'' = ordinal numbers
 +''Mm'' = multiplier numbers
 +''Ms'' = generic numerals ("desaterý", "dvojí", "jeden", "několikerý", "několikery", "obojí")
 +
 +''M.1'' = definite1 ("jeden", "první")
 +''M.2'' = definite2 ("druhý", "dvojí", "dvojnásob", "dva", "nadvakrát", "oba", "obojí")
 +''M.3'' = definite34 ("čtvrtý", "čtyři", "potřetí", "tři", "třetí", "třikrát")
 +''M.f'' = definite ("1929", "čtrnáctý", "čtyřiapadesát", "dvoustý", "tucet", ...)
 +''M.d'' = demonstrative ("tolik", "tolikrát")
 +''M.i'' = indefinite ("bezpočet", "bezpočtukrát", "bůhvíkolik", "hodně", "málo", "mnohý", "mockrát", "několik", "několikerý", "několikrát", "nejeden", "pár", "vícekrát")
 +''M.q'' = interrogative ("kolik", "kolikrát")
 +''M.r'' = relative ("kolik", "kolikrát")
 +
 +==== bg::conll ====
 +
 +Interrogative, relative, indefinite and demonstrative numerals are treated as pronouns. In addition, there are the following classes of numerals.
 +
 +''Mc'' = cardinal numbers
 +''Mo'' = ordinal numbers
 +''Md'' = adverbial numerals ("poveče", "malko", "mnogo", "măničko")
 +''My'' = fuzzy numerals about people ("malcina" = "few people", "mnozina" = "many people"); they resemble nouns
 +
 +==== en::penn ====
 +
 +Only cardinal numbers have their own tag. Ordinals ("first") are tagged as adjectives (''JJ'') or adverbs (''RB''), depending on context. So are generic numerals ("sevenfold"). Multiplier numerals ("twice") are adverbs. Fractions ("quarter") are nouns (''NN'').
 +
 +''CD'' = cardinal numbers ("one", "two", "three", ...)
 +
 +==== de::stts ====
 +
 +Only cardinal numbers have their own tag. Ordinals ("zweite") are tagged as adjectives (''ADJA'') or ("zweitens") as adverbs (''ADV''). Multiplier numerals ("zweimal") are adverbs. Fractions ("Drittel") are nouns (''NN''). Interrogative numerals ("wieviel") are tagged as pronouns/determiners (''PWAT'', ''PWS'').
 +
 +''CARD'' = cardinal numbers ("1986", "zwei", "fünf")
 +
 +==== da::conll ====
 +
 +No top-level class for numerals. They are tagged as a subclass of adjectives. Interrogative numerals are probably classified as pronouns.
 +
 +''AC'' = cardinal numbers ("18.45", "tre", "fire", "seks")
 +''AO'' = ordinal numbers ("16.", "tredje", "anden", "fjerde")
 +''AN'' = normal adjectives
 +
 +==== sv::hajic ====
 +
 +''MC'' = cardinal numbers
 +''MO'' = ordinal numbers
 +
 +==== sv::mamba ====
 +
 +Interrogative numerals are probably tagged as pronouns.
 +
 +''RO'' = numeral (cardinal or ordinal) other than "en", "ett" (one): "hundra", "24", "två", "fjärde", "sjätte"
 +''EN'' = indefinite article or numeral "en", "ett" (one)
 +
 +==== pt::conll ====
 +
 +Interrogative numerals ("quanto") are tagged as pronouns/determiners. Ordinal numbers are adjectives.
 +
 +''num'' = number ("0,05", "cento_e_quatro", "cinco", "setenta_e_dois", "um", "zero")
 +''adj''...''<NUM-ord>'' = ordinal number ("primeiro")
 +
 +==== ar::conll ====
 +
 +The tag ''Q'' is used only for numbers written using digits. I do not know how numeral words are tagged, nor how ordinals and interrogatives are dealt with.
 +
 +''Q'' = number written using digits ("1948")
 +
 +==== zh::conll ====
 +
 +Determiners and cardinal numbers are in the same group (''Ne''):
 +
 +''Nep'' = anaphoric determiner ("this", "that")
 +''Neq'' = classifying determiner ("much", "half")
 +''Nes'' = specific determiner ("you", "shang", "ge"=every)
 +''Neu'' = numeric determiner ("yi" = "one", "er" = "two", "san" = "three")

[ Back to the navigation ] [ Back to the content ]