[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
polo-automaticke-kontroly-dat [2011/10/24 12:07]
ufal
polo-automaticke-kontroly-dat [2011/12/13 11:13]
ufal
Line 2: Line 2:
  
 ==== chystané: ==== ==== chystané: ====
- - vytvořit tabulku distribuce typů - zkontrolovat, zda je všude typ (informal-type) a zda někde není starý typ; ta místa projít ručně + (HOTOVO) vytvořit tabulku distribuce typů - zkontrolovat, zda je všude typ (informal-type) a zda někde není starý typ; ta místa projít ručně 
- - zkontrolovat, zda je všude nastaven atribut src a target-node.rf + (HOTOVO) zkontrolovat, zda je všude nastaven atribut src a target-node.rf 
- - zkontrolovat, že šipky vedou v řetězci; případně převěsit (skript pro bridging už existuje, podobný pro text-coref) + (HOTOVO) zkontrolovat, že šipky vedou v řetězci; případně převěsit (skript pro bridging už existuje, podobný už i pro text-coref; akorát ještě vyřešit, když do jednoho uzlu vedou dvě gramatické koref. - ty se nepřevěšují a narušují správnou funkci skriptu
-- zkontrolovat, ze sipky nevedou od uzlu s t-lemmatem #Gen+- zkontrolovat, ze sipky nevedou od uzlu s t-lemmatem #Gen a #Unsp a na uzly s funktorem INTF (pozor, obcas jsou poznamky od JP a RO o chybnem lemmatu) 
 +- (HOTOVO) u dlouhych koreferencnich retezcu propojenych bridgingem nechat jednu bridging sipku, ktera je propojuje. Ostatni smazat  
  
 ==== chystané obsahové: ==== ==== chystané obsahové: ====
Line 12: Line 14:
 3. //u nás//  ve smyslu "v Praze" nebo "v ČR" ne/zařadit do anotace 3. //u nás//  ve smyslu "v Praze" nebo "v ČR" ne/zařadit do anotace
 4. projít rekonstruované NP, vyjádřené slovy a dodělat občas chybějící koreferenci a bridging 4. projít rekonstruované NP, vyjádřené slovy a dodělat občas chybějící koreferenci a bridging
 +5. vyhledat a sjednotit pripady neshody, kde je nejaky  vztah a segm
 +6 prohledat uzly s funktorem ID - nemely by na ne vest sipky
  
 ==== chystané obsahové, připravené filelisty: ==== ==== chystané obsahové, připravené filelisty: ====
Line 35: Line 39:
  
  
-==== hotové: ====+===== HOTOVÉ ===== 
 + 
 +==== Distribuce typů + kontrola prázdného typu ==== 
 + 
 +V PML-TQ pomocí dotazu (obdobně pro coref_text): 
 + 
 +''t-node  
 +[ member bridging $n := [  ] ]; 
 +  >> for $n.informal-type give $1,count()'' 
 + 
 +**Výsledek pro bridging (14.11.2011):** 
 + 
 +^ typ ^ četnost ^ 
 +| SET_SUB | 13010 | 
 +| SUB_SUB | 6009 | 
 +| WHOLE_PART | 4502 | 
 +| CONTRAST | 2305 | 
 +| REST | 2246 | 
 +| PART_WHOLE | 2054 | 
 +| P_FUNCT | 1832 | 
 +| ANAF | 840 | 
 +| FUNCT_P | 429 | 
 +| **(prázdný)** | 28 | 
 + 
 +**Výsledek pro coref_text (14.11.2011):** 
 + 
 +^ typ ^ četnost ^ 
 +| SPEC | 70936 | 
 +| GEN | 16264 |  
 +| **(prázdný)** | 5 | 
 + 
 +Identifikátory anaforů, odkud vedou šipky s prázdným typem, se najdou takto (obdobně coref_text): 
 + 
 +''t-node $anaf : 
 +[ member bridging $n : 
 +     [ !informal-type ~ ".+" ] ]; 
 +  >> give $anaf.id'' 
 + 
 +==== Distribuce src + kontrola prázdného src a target-node.rf ==== 
 + 
 +V PML-TQ pomocí dotazu (obdobně pro coref_text): 
 + 
 +''t-node  
 +[ member bridging $n := [  ] ]; 
 +  >> for $n.src give $1,count()'' 
 + 
 +**Výsledek pro bridging (14.11.2011):** 
 + 
 +^ src ^ četnost ^ 
 +| JP | 18346 | 
 +| RO | 12782 | 
 +| JK | 606 | 
 +| AN | 310 | 
 +| RO+JP | 863 | 
 +| JP+RO | 341 | 
 +| **(prázdný)** | 7 | 
 + 
 +**Výsledek pro coref_text (14.11.2011):** 
 + 
 +^ src ^ četnost ^ 
 +| PDT_2.0 | 20523 | 
 +| JP | 31791 | 
 +| RO | 27694 | 
 +| JK | 1581 | 
 +| AN | 683 | 
 +| RO+JP | 3492 | 
 +| JP+RO | 1406 | 
 +| **(prázdný)** | 35 | 
 + 
 +Identifikátory anaforů, odkud vedou šipky s prázdným src, se najdou takto (obdobně coref_text): 
 + 
 +''t-node $anaf :=  
 +[ member bridging $n :=  
 +     [ !src ~ ".+" ] ]; 
 +  >> give $anaf.id'' 
 + 
 +Identifikátory anaforů, odkud vedou šipky s prázdným target-node.rf, se najdou takto (obdobně coref_text):   
 +(14.11.2011 jich bylo 0 a 0.) 
 + 
 +''t-node $anaf : 
 +[ member bridging  
 +     [ 0x target-node.rf t-node [  ] ] ]; 
 +  >> give $anaf.id''
  

[ Back to the navigation ] [ Back to the content ]