[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:zeman:treebanks:ro [2012/01/12 12:59]
zeman References.
user:zeman:treebanks:ro [2012/01/12 17:17]
zeman Sample.
Line 36: Line 36:
     * //no separate citation//     * //no separate citation//
   * Principal publications   * Principal publications
-    * Susana AfonsoEckhard Bick, Renato Haber, Diana Santos: [[http://www.linguateca.pt/Diana/download/AfonsoetalAPL2001.rtf|Floresta sintá(c)tica: um treebank para o português]]. In: Encontro da associação portuguesa de linguística, XVII, Lisboa, 2001. +    * Florentina HristeaMarius Popescu: [[http://www.phobos.ro/roric/papers/dgro.doc|Gramatici de dependenţă şi gramatici WG]], pp. 233-246.
-    * Cláudia Freitas, Paulo Rocha, Eckhard Bick: [[http://www.linguateca.pt/documentos/FreitasetAl2008Calidoscopio.pdf|Um mundo novo na Floresta Sintá(c)tica - o treebank para Português]]. Calidoscópio - Revista de Pós Graduação em Lingüística Aplicada da Unisinos, Rio Grande do Sul 6.3 (2008), pp. 142-148.+
   * Documentation   * Documentation
-    * [[http://www.linguateca.pt/Floresta/documentacao.html|Documentation]] 
-    * Cláudia Freitas, Susana Afonso: [[http://www.linguateca.pt/Floresta/BibliaFlorestal/|Bíblia Florestal: Um manual lingüístico da Floresta Sintá(c)tica]], 2008 
-    * [[http://www.linguateca.pt/Floresta/BibliaFlorestal/anexo1.html|Glossário de etiquetas florestais]] (glossary of tags) 
-    * [[http://www.linguateca.pt/Floresta/BibliaFlorestal/anexo4.html|Statistics of morphosyntactic tags]] 
  
 ==== Domain ==== ==== Domain ====
  
-Newspaper. Bosque contains 9368 sentences mostly from two primary sources, the CETENFolha (Corpus de Extractos de Textos Electrónicos NILC/Folha de São Paulo, texts from the Brazilian journal Folha de São Paulo, year 1994) and CETEMPúblico (Corpus de Extractos de Textos Electrónicos MCT/Público, texts from the Portuguese (European) journal Público, April 2000).+Newspaper.
  
 ==== Size ==== ==== Size ====
  
-The CoNLL 2006 version contains 212,545 tokens in 9359 sentences, yielding 22.71 tokens per sentence on average (CoNLL 2006 data split: 206,678 tokens / 9071 sentences training, 5867 tokens / 288 sentences test).+The corpus contains 36150 tokens in 4042 clauses, yielding 8.94 tokens per clause on average. There is no official training-test data split. We use the files ''t1.xml'' – ''t10.xml'' (2640 tokens / 266 clauses) for testing and the rest (33510 tokens / 3776 clausesfor training of our HamleDT experiments.
  
 ==== Inside ==== ==== Inside ====
Line 62: Line 57:
 ==== Sample ==== ==== Sample ====
  
-The first two sentences of the CoNLL 2006 training data:+The first sentence of our training data:
  
-| 1 | Um | um | art | art | <nowiki><arti>|M|S</nowiki| 2 | <nowiki>>N</nowiki<nowiki>_</nowiki| <nowiki>_</nowiki| +<code xml><?xml version="1.0" encoding="utf-8"?> 
-| 2 | revivalismo | revivalismo | n | n | <nowiki>M|S</nowiki| 0 | UTT | <nowiki>_</nowiki<nowiki>_</nowiki> | +<!DOCTYPE DGAdoc SYSTEM "dga.dtd"> 
-| 3 | refrescante | refrescante | adj | adj | <nowiki>M|S</nowiki| 2 | <nowiki>N<</nowiki| <nowiki>_</nowiki| <nowiki>_</nowiki| +<DGAdoc> 
-| |||||||||| +<s> 
-| 1 | O | o | art | art | <nowiki><artd>|M|S</nowiki| 2 | <nowiki>>N</nowiki<nowiki>_</nowiki<nowiki>_</nowiki> | +   <tok> 
-| 2 | <nowiki>7_e_Meio</nowiki<nowiki>7_e_Meio</nowiki| prop | prop | <nowiki>M|S</nowiki| 3 | SUBJ | <nowiki>_</nowiki><nowiki>_</nowiki| +      <orth>Marii</orth
-| 3 | é | ser | v | <nowiki>v-fin</nowiki<nowiki>PR|3S|IND</nowiki| 0 | STA | <nowiki>_</nowiki| <nowiki>_</nowiki| +      <ordno>1</ordno> 
-| 4 | um | um | art | art | <nowiki><arti>|M|S</nowiki| 5 | <nowiki>>N</nowiki<nowiki>_</nowiki| <nowiki>_</nowiki| +      <ctag>adjectiv</ctag> 
-| 5 | <nowiki>ex-libris</nowiki<nowiki>ex-libris</nowiki| n | n | <nowiki>M|P</nowiki| SC | <nowiki>_</nowiki<nowiki>_</nowiki| +      <syn
-| 6 | de | de | prp | prp | <nowiki><sam-></nowiki| 5 | <nowiki>N<</nowiki| <nowiki>_</nowiki<nowiki>_</nowiki| +         <head>2</head> 
-| 7 | a | o | art | art | <nowiki><-sam>|<artd>|S</nowiki| 8 | <nowiki>>N</nowiki| <nowiki>_</nowiki<nowiki>_</nowiki| +         <reltype>atribut adj.</reltype> 
-| 8 | noite | noite | n | n | <nowiki>F|S</nowiki| 6 | <nowiki>P<</nowiki<nowiki>_</nowiki| <nowiki>_</nowiki| +      </syn> 
-| 9 | algarvia | algarvio | adj | adj | <nowiki>F|S</nowiki| 8 | <nowiki>N<</nowiki<nowiki>_</nowiki| <nowiki>_</nowiki| +   </tok
-| 10 | <nowiki>.</nowiki| <nowiki>.</nowiki| punc | punc | <nowiki>_</nowiki| 3 | PUNC | <nowiki>_</nowiki> | <nowiki>_</nowiki|+   <tok> 
 +      <orth>bancheri</orth> 
 +      <ordno>2</ordno> 
 +      <ctag>substantiv</ctag> 
 +      <syn
 +         <head>6</head> 
 +         <reltype>subiect</reltype> 
 +      </syn> 
 +   </tok> 
 +   <tok> 
 +      <orth>ai</orth
 +      <ordno>3</ordno> 
 +      <ctag>art. poses.</ctag> 
 +      <syn> 
 +         <head>2</head
 +         <reltype>atribut subst.</reltype> 
 +      </syn> 
 +   </tok> 
 +   <tok> 
 +      <orth>lumii</orth
 +      <ordno>4</ordno> 
 +      <ctag>substantiv</ctag> 
 +      <syn> 
 +         <head>3</head> 
 +         <reltype>rel. poses.</reltype
 +      </syn> 
 +   </tok> 
 +   <tok> 
 +      <orth>au</orth> 
 +      <ordno>5</ordno
 +      <ctag>verb aux.</ctag> 
 +      <syn> 
 +         <head>6</head> 
 +         <reltype>rel. aux.</reltype
 +      </syn> 
 +   </tok> 
 +   <tok> 
 +      <orth>reusit</orth
 +      <ordno>6</ordno> 
 +      <ctag>verb</ctag> 
 +      <syn> 
 +         <head>7</head
 +         <reltype>predicat</reltype> 
 +      </syn> 
 +   </tok> 
 +</s></code>
  
-The first two sentences of the CoNLL 2006 test data:+The first sentence of our test data:
  
-| 1 | É | é | adv | adv | <nowiki><foc></nowiki| 9 | FOC | <nowiki>_</nowiki<nowiki>_</nowiki> | +<code xml><?xml version="1.0" encoding="utf-8"?> 
-| 2 | por | por | prp | prp | <nowiki>_</nowiki| 9 | ADVL | <nowiki>_</nowiki<nowiki>_</nowiki| +<!DOCTYPE DGAdoc SYSTEM "dga.dtd"> 
-| 3 | isso | isso | pron | <nowiki>pron-indp</nowiki| <nowiki><dem>|M|S</nowiki| 2 | <nowiki>P<</nowiki| <nowiki>_</nowiki| <nowiki>_</nowiki| +<DGAdoc> 
-| 4 | que | que | adv | adv | <nowiki><foc></nowiki| 9 | FOC | <nowiki>_</nowiki<nowiki>_</nowiki| +<s> 
-| 5 | <nowiki>,</nowiki| <nowiki>,</nowiki| punc | punc | <nowiki>_</nowiki| 6 | PUNC | <nowiki>_</nowiki<nowiki>_</nowiki> | +   <tok
-| 6 | explica | explicar | v | <nowiki>v-fin</nowiki<nowiki>PR|3S|IND</nowiki| 0 | STA | <nowiki>_</nowiki<nowiki>_</nowiki> | +      <orth>Judecatorul</orth> 
-| 7 | <nowiki>,</nowiki<nowiki>,</nowiki| punc | punc | <nowiki>_</nowiki| 6 | PUNC | <nowiki>_</nowiki| <nowiki>_</nowiki| +      <ordno>1</ordno> 
-| 8 | não | não | adv | adv | <nowiki>_</nowiki| 9 | ADVL | <nowiki>_</nowiki<nowiki>_</nowiki> | +      <ctag>substantiv</ctag
-| 9 | tem | ter | v | <nowiki>v-fin</nowiki<nowiki>PR|3S|IND</nowiki| 6 | ACC | <nowiki>_</nowiki<nowiki>_</nowiki> | +      <syn> 
-| 10 | pena | pena | n | n | <nowiki>F|S</nowiki| 9 | ACC | <nowiki>_</nowiki<nowiki>_</nowiki| +         <head>9</head> 
-| 11 | de | de | prp | prp | <nowiki>_</nowiki| 10 | <nowiki>N<</nowiki<nowiki>_</nowiki<nowiki>_</nowiki| +         <reltype>subiect</reltype> 
-| 12 | <nowiki>Hillary_Clinton</nowiki| <nowiki>Hillary_Clinton</nowiki| prop | prop | <nowiki>F|S</nowiki| 11 | <nowiki>P<</nowiki<nowiki>_</nowiki| <nowiki>_</nowiki| +      </syn> 
-| 13 | <nowiki>.</nowiki<nowiki>.</nowiki| punc | punc | <nowiki>_</nowiki> | 6 | PUNC | <nowiki>_</nowiki<nowiki>_</nowiki| +   </tok
-| |||||||||| +   <tok> 
-| 1 | <nowiki>«</nowiki<nowiki>«</nowiki| punc | punc | <nowiki>_</nowiki| 8 | PUNC | <nowiki>_</nowiki<nowiki>_</nowiki| +      <orth>sindic</orth> 
-| 2 | Eles | ele | pron | <nowiki>pron-pers</nowiki<nowiki>M|3P|NOM</nowiki| SUBJ | <nowiki>_</nowiki<nowiki>_</nowiki| +      <ordno>2</ordno> 
-| 3 | <nowiki>[</nowiki| <nowiki>[</nowiki| punc | punc | <nowiki>_</nowiki| 8 | PUNC | <nowiki>_</nowiki| <nowiki>_</nowiki| +      <ctag>adjectiv</ctag
-| 4 | Hillary | Hillary | prop | prop | <nowiki>F|S</nowiki| 9 | APP | <nowiki>_</nowiki<nowiki>_</nowiki| +      <syn> 
-| 5 | e | e | conj | <nowiki>conj-c</nowiki<nowiki><co-app></nowiki| 4 | CO | <nowiki>_</nowiki| <nowiki>_</nowiki| +         <head>1</head> 
-| 6 | <nowiki>Bill_Clinton</nowiki<nowiki>Bill_Clinton</nowiki| prop | prop | <nowiki>M|S</nowiki| 4 | CJT | <nowiki>_</nowiki<nowiki>_</nowiki| +         <reltype>atribut adj.</reltype> 
-| 7 | <nowiki>]</nowiki| <nowiki>]</nowiki| punc | punc | <nowiki>_</nowiki| 8 | PUNC | <nowiki>_</nowiki| <nowiki>_</nowiki| +      </syn> 
-| 8 | podem | poder | v | <nowiki>v-fin</nowiki| <nowiki>PR|3P|IND</nowiki| 0 | QUE | <nowiki>_</nowiki<nowiki>_</nowiki| +   </tok> 
-| 9 | ter | ter | v | <nowiki>v-inf</nowiki| <nowiki>_</nowiki| 8 | MV | <nowiki>_</nowiki| <nowiki>_</nowiki| +   <tok
-| 10 | alguma | algum | pron | <nowiki>pron-det</nowiki<nowiki><quant>|F|S</nowiki| 11 | <nowiki>>N</nowiki<nowiki>_</nowiki<nowiki>_</nowiki+      <orth>IonBriac</orth> 
-11 | espécie | espécie | n | n | <nowiki>F|S</nowiki| 9 | ACC | <nowiki>_</nowiki<nowiki>_</nowiki| +      <ordno>3</ordno> 
-| 12 | de | de | prp | prp | <nowiki>_</nowiki| 11 | <nowiki>N<</nowiki<nowiki>_</nowiki<nowiki>_</nowiki| +      <ctag>substantiv</ctag> 
-| 13 | acordo | acordo | n | n | <nowiki>M|S</nowiki12 | <nowiki>P<</nowiki<nowiki>_</nowiki| <nowiki>_</nowiki| +      <syn
-| 14 | e | e | conj | <nowiki>conj-c</nowiki<nowiki><co-vfin>|<co-fmc></nowiki| 8 | CO | <nowiki>_</nowiki<nowiki>_</nowiki| +         <head>1</head> 
-| 15 | quem | quem | pron | <nowiki>pron-indp</nowiki| <nowiki><interr>|M/F|P</nowiki| 16 | SC | <nowiki>_</nowiki| <nowiki>_</nowiki| +         <reltype>atribut subst.</reltype> 
-| 16 | somos | ser | v | <nowiki>v-fin</nowiki<nowiki>PR|1P|IND</nowiki| 8 | CJT | <nowiki>_</nowiki<nowiki>_</nowiki| +      </syn> 
-| 17 | nós | nós | pron | <nowiki>pron-pers</nowiki<nowiki>M/F|1P|NOM</nowiki| 16 | SUBJ | <nowiki>_</nowiki<nowiki>_</nowiki| +   </tok> 
-| 18 | para | para | prp | prp | <nowiki>_</nowiki| 16 | ADVL | <nowiki>_</nowiki<nowiki>_</nowiki> | +   <tok> 
-| 19 | dizer | dizer | v | <nowiki>v-inf</nowiki<nowiki>_</nowiki| 18 | <nowiki>P<</nowiki<nowiki>_</nowiki| <nowiki>_</nowiki| +      <orth>de</orth
-| 20 | se | se | conj | <nowiki>conj-s</nowiki| <nowiki>_</nowiki| 21 | SUB | <nowiki>_</nowiki<nowiki>_</nowiki> | +      <ordno>4</ordno> 
-| 21 | é | ser | v | <nowiki>v-fin</nowiki<nowiki>PR|3S|IND</nowiki| 19 | ACC | <nowiki>_</nowiki<nowiki>_</nowiki> | +      <ctag>prepozitie</ctag> 
-| 22 | bom | bom | adj | adj | <nowiki>M|S</nowiki| 21 | SC | <nowiki>_</nowiki| <nowiki>_</nowiki| +      <syn
-| 23 | ou | ou | conj | <nowiki>conj-c</nowiki<nowiki><co-sc></nowiki| 22 | CO | <nowiki>_</nowiki<nowiki>_</nowiki| +         <head>1</head> 
-| 24 | mau | mau | adj | adj | <nowiki>M|S</nowiki| 22 | CJT | <nowiki>_</nowiki<nowiki>_</nowiki| +         <reltype>atribut subst.</reltype> 
-| 25 | <nowiki>?</nowiki| <nowiki>?</nowiki| punc | punc | <nowiki>_</nowiki> | 8 | PUNC | <nowiki>_</nowiki> | <nowiki>_</nowiki|+      </syn> 
 +   </tok> 
 +   <tok
 +      <orth>la</orth> 
 +      <ordno>5</ordno> 
 +      <ctag>prepozitie</ctag
 +      <syn> 
 +         <head>4</head> 
 +         <reltype>rel. prepoz.</reltype> 
 +      </syn> 
 +   </tok
 +   <tok> 
 +      <orth>Tribunalul</orth> 
 +      <ordno>6</ordno> 
 +      <ctag>substantiv</ctag> 
 +      <syn> 
 +         <head>4</head
 +         <reltype>rel. prepoz.</reltype> 
 +      </syn> 
 +   </tok> 
 +   <tok> 
 +      <orth>CarasSeverin</orth> 
 +      <ordno>7</ordno
 +      <ctag>substantiv</ctag> 
 +      <syn> 
 +         <head>6</head> 
 +         <reltype>atribut subst.</reltype> 
 +      </syn> 
 +   </tok
 +   <tok> 
 +      <orth>a</orth> 
 +      <ordno>8</ordno> 
 +      <ctag>verb aux.</ctag
 +      <syn> 
 +         <head>9</head> 
 +         <reltype>rel. aux.</reltype> 
 +      </syn> 
 +   </tok
 +   <tok> 
 +      <orth>decis</orth> 
 +      <ordno>9</ordno
 +      <ctag>verb</ctag> 
 +      <syn> 
 +         <head>19</head> 
 +         <reltype>predicat</reltype> 
 +      </syn
 +   </tok> 
 +   <tok> 
 +      <orth>ieri</orth> 
 +      <ordno>10</ordno> 
 +      <ctag>adverb</ctag
 +      <syn> 
 +         <head>9</head> 
 +         <reltype>complement circumst.</reltype> 
 +      </syn> 
 +   </tok
 +   <tok> 
 +      <orth>declansarea</orth> 
 +      <ordno>11</ordno> 
 +      <ctag>substantiv</ctag
 +      <syn> 
 +         <head>9</head> 
 +         <reltype>complement dir.</reltype> 
 +      </syn
 +   </tok> 
 +   <tok> 
 +      <orth>reorganizarii</orth> 
 +      <ordno>12</ordno> 
 +      <ctag>substantiv</ctag> 
 +      <syn> 
 +         <head>11</head> 
 +         <reltype>atribut subst.</reltype> 
 +      </syn> 
 +   </tok
 +   <tok> 
 +      <orth>judiciare</orth> 
 +      <ordno>13</ordno> 
 +      <ctag>adjectiv</ctag
 +      <syn> 
 +         <head>12</head> 
 +         <reltype>atribut adj.</reltype> 
 +      </syn
 +   </tok> 
 +   <tok> 
 +      <orth>a</orth> 
 +      <ordno>14</ordno> 
 +      <ctag>art. poses.</ctag
 +      <syn> 
 +         <head>12</head> 
 +         <reltype>atribut subst.</reltype> 
 +      </syn
 +   </tok> 
 +   <tok> 
 +      <orth>Combinatului</orth> 
 +      <ordno>15</ordno
 +      <ctag>substantiv</ctag> 
 +      <syn> 
 +         <head>14</head> 
 +         <reltype>rel. poses.</reltype
 +      </syn> 
 +   </tok> 
 +   <tok
 +      <orth>Siderurgic</orth> 
 +      <ordno>16</ordno> 
 +      <ctag>adjectiv</ctag> 
 +      <syn> 
 +         <head>15</head
 +         <reltype>atribut adj.</reltype> 
 +      </syn> 
 +   </tok> 
 +   <tok
 +      <orth>din</orth> 
 +      <ordno>17</ordno> 
 +      <ctag>prepozitie</ctag> 
 +      <syn
 +         <head>15</head> 
 +         <reltype>atribut subst.</reltype> 
 +      </syn
 +   </tok> 
 +   <tok> 
 +      <orth>Resita</orth> 
 +      <ordno>18</ordno> 
 +      <ctag>substantiv</ctag
 +      <syn> 
 +         <head>17</head> 
 +         <reltype>rel. prepoz.</reltype
 +      </syn> 
 +   </tok> 
 +</s></code>
  
 ==== Parsing ==== ==== Parsing ====

[ Back to the navigation ] [ Back to the content ]