Table of Contents
PFL071-2 Vybrané problémy z lingvistiky I-II
Vyučující:
Markéta Lopatková
středa 12:20-13:50, východní chodba ve 4. patře (jako v ZS)
Stránka předmětu PFL071 ve Studijním informačním systému - anotace, osnova atd.
Stránka předmětu PFL072 ve Studijním informačním systému - anotace, osnova atd.
Nabídka témat na letní semestr:
- Valence
- Charakteristiha aktantů ve FGD
- Alternační model slovníku
- Valence u dalších slovních druhů
- Koreference
- Kučová et al.: Anotování koreference v Pražkém závislostním korpusu. UFAL/CKL Technical Report, TR 2003-19.
- Kučová, L., Žabokrtský, Z.: Anaphora in Czech: large Data end Experiments with Automatic Anaphora Resolution. In: Preoceedings of TSD 2005, LNCS/Lecture Notes in Artificial Intelligence 3658, pp. 93-98, 2005.
- Kučová, L., Hajičová, E.: Prague Dependency Treebank: Enrichment of the Underlying Syntactic Annotation by Coreferential Mark-Up. The Prague Bulletin of Mathematical Linguistics 81, pp. 23-34, 2004.
- Aktuální členění (dr. Šárka Zigánová)
- Význam ve FGD - synonymie, homonymie, vágnost
- Slovosled a neprojektivita
- Holan, T., Kuboň, V., Oliva, K., Plátek, M.: On Complexity of Word Order. In: Les grammaires de dépendance - Traitement automatique des langues, Vol 41, No 1, pp. 273-300, 2000.
- Kuhlmann, M., Nivre, J.: Mildly Non-Projective Dependency Structures. In: proccedings of COLING-ACL 2006 Conference, Companion Volume, Sydney, 2006.
- Havelka, J.: Projectivity in Totally Ordered Rooted Trees: An Alternative Definition of Projectivity and Optimal Algorithms for Detecting Non-Projective Edges and Projectivizing Totally Ordered Rooted Trees. The Prague Bulletin of Mathematical Linguistics 84, pp. 13-30, 2005.
- Hajičová, E., Havelka, J., Sgall, P., Veselá, K., Zeman. D.: Issues of Projectivity in the Prague Dependency Treebank. The Prague Bulletin of Mathematical Linguistics 81, pp. 5-22, 2004.
- Zeman, D.: Neprojektivita v Pražském závislostním korpusu (PDT).UFAL/CKL Technical Report TR-2004-22. 2004.
- Hajičová, E.: K některým otázkám závislostní gramatiky. Slovo a Slovesnost 67, pp. 3-26, 2006.
- Segmentace
- Kuboň, V.: A Method for Analyzing Clause Complexity. The Prague Bulletin of Mathematical Linguistics 75, pp. 5-27, 2001.
- Kuboň, V., Lopatková, M., Plátek, M., Pognan, P.: A Linguistically-Based Segmentation of Complex Sentences. In: Proceedings of Flairs 2007 Conference (in press).
- Formální model TR ve FGD
- Petkevič, V.: A New Formal Specification of Underlying Structure}. Theoretical Linguistics 21, 1995.
- Lopatková, M.. Formální specifikace podkladové struktury pro popis přirozeného jazyka. In: Proceedings of Malý informatický seminář (MIS). Matfyzpress, Charles University, 2005.
Párování rámců
Cílem je vytvořit vzájemné mapování rámců z našich valenčních slovníků.
Ve Vallexu i v PDT-Vallexu má každý rámec jednoznačný identifikátor.
Zajímá nás, které rámce nebo skupiny rámců si navzájem odpovídají.
- PDT-VALLEX pdt-vallex.pdf
identifikátor (např. 'v-w113f4') je zapsán v horním indexu u rámce
pozor na stará data z adresy http://ufal.mff.cuni.cz/pdt2.0/visual-data/pdt-vallex/vallex.html neuživat prosím
- Vallex 2.0 http://ufal.mff.cuni.cz/vallex/2.0/
identifikátory (například 'blu-v-pamatovat-se-1') jsou pro normální smrtelníky neviditelné.
pokud podržíte myš nad číslem rámce (v rámečku) identifikátor se objeví jako tooltip
idéčka pro lepší kopírování si můžete zobrazit i následovně:
- v opeře si zvolte View/Style/User mode
- ve firefoxu je nejlepší do souboru chrome/userContent.css v adresáři vašeho profilu zapsat
.invisible {display:inline!important;}
- v IE si předchozí css kód nastavíte podle tohoto návodu
- ve firefoxu si také můžete následující bookmarklet uložit to bookmarků a vyvolat ho na stránce s vallexem 2.0 (showID bookmarklet)
Rámce k párování
Přihlašte se pomocí tlačítka v levém menu, vyberte si skupinu sloves a připište k ní své jméno. Odhalená párování pak zapisujte na stránky jednotlivých sloves.
Skupina 1 (Jan Ptáček) | |
---|---|
vidět (se) | 8+1 |
přijít, přicházet | 21 |
uvést, uvádět | 7 |
zůstat, zůstávat | 14 |
padat, padnout | 23 |
vytahovat, vytáhnout (se) | 13+3 |
platit | 9 |
změnit (se) | 3+3 |
jednat (se) | 4+1 |
otevřít, otevírat, otvírat (se) | 2+2 |
užívám Martinovu konvenci, případné rozdíly uvedené v popisu jsou označeny vykřičníkem
Skupina 2 (Martin Popel) | |
---|---|
hrát (si) | 8+2 |
dělat (se, si) | 23+1+2 |
říkat, říci (si) | 8+1 |
najít, nacházet (se) | 4+3 |
ležet | 13 |
táhnout | 20+7 |
dojít, docházet | 12 |
stačit (I,II) | 5 |
dokázat, dokazovat | 3+1 |
rozhodnout, rozhodovat (se) | 2+2 |
- Významy, které chyběly ve Vallexu, jsem přidal a označil a, b, c,…
- Místo významů, které chyběly v PDT-V., jsem nechal prázdnou buňku v tabulce. Stejně se v PDT-V. stává, že některý význam (rámec) u dokonavého tvaru je a u nedokonavého chybí (a naopak) - tyto významy jde automaticky doplnit podle Vallexu.
- Také jsem narazil na případy, kdy si rámce v podstatě odpovídají, jen je třeba doplnit/pozměnit funktory. Těchto případů je dost, ale jen v několika jsem změnu naznačil vallexím identifikátorem s připojeným písmenem (např. blu-v-říci-říct-říkat-7a) a vysvětlením v popisu.
Skupina 3 (Pavel Češka) | |
---|---|
získat, získávat (si) | 6+1 |
nechat, nechávat | 16+1+3 |
vydat, vydávat (se) | 8+2 |
přijmout, přijímat | 10 |
vyjít, vycházet (si) | 14+1 |
ukázat, ukazovat (se) | 5+3 |
cítit (se) | 4+3 |
zdát se | 5 |
začínat, začít (si) | 3+1 |
znát | 2+2 |
Skupina 4 (David Mareček) | |
---|---|
patřit (se), I, II | 5+1+2 |
vzít, brát (se,si) | 28+2+8 |
vrátit, vracet | 4+3 |
mluvit | 10 |
natáhnout, natahovat (se) | 13+5 |
pracovat | 8 |
čekat (se) | 4+1 |
skončit | 6 |
tvrdit | 1+3 |
vytvořit, vytvářet (se) | 2+1 |
- používám stejného značení jako Martin
Skupina 5 (Kateřina Topilová) | |
---|---|
vést (se, si) | 8+2+1 |
dávat, dát (se, si) | 32+6+4 |
vypadat I,II, vypadávat, vypadnout | 7+3 |
pouštět, pustit (se,si) | 13+4+1 |
stavět I,II | 14+10+1+2 |
představovat, představit (si) | 5+2 |
počítat | 6 |
dodat, dodávat | 5 |
psát | 4 |
pokračovat, pokročit | 3 |
Skupina 6 (Petra Hoffmannova) | |
---|---|
udělat (se) | 7+3 |
mít (se) | 22+3 |
myslit, myslet (si) | 7+1 |
chytat, chytnout, chytit | 13+6 |
jít | 14 |
dosáhnout, dosahovat | 6 |
připravit, připravovat (se) | 4+1 |
žít I, II | 4+2 |
působit | 4 |
věřit | 3 |
Skupina 7 (Adam Slavický) | |
---|---|
házet, hoditI, hoditII se | 12+5 |
pokládat, položit (se) | 12+3 |
postavit (se, si) | 12+6+1 |
přecházet, přejít, přechodit | 12 |
tlouci, tlouct (se) | 12+4 |
činit (se) | 11+1 |
držet (se) | 11+6 |
koukat, kouknout (se) | 11+6 |
nést (se) | 11+2 |
scházet, sejít (se) | 11+2 |
skládat, složit (se) | 11+5 |
stahovat, stáhnout (se) | 11+6 |
svádět, svést | 11 |
Q&A
V pdt-vallexu mi nefunguje hledání zřejmě kvůli kódování češtiny,
neví někdo, jak to opravit? ptacek
- Také mi to u diakritiky nefunguje. Mohu se úplně mýlit, ale vypadá to, jako by byla použita technologie minulého století: 7bitové (tedy jen ascii) písmo a samostatné akcenty nalepene TeXem nad patřičné znaky. Vypadá to pak jako čeština, ale v podstatě není. Hledání akcentovaných znaků tedy funguje dobře (hledá), leč nic nenajde (nejsou tam). Oprava v LaTexovém zdrojáku by neměla být příliš složitá. –P. Straňák
Aktuální členění 2.díl
Kdo má zájem o druhý díl z cyklu Aktuální členění, prosím poznamenejte se:
Honza Ptáček: jsem pro
David Mareček: pro
Kateřina Topilová: pro
Adam Slavický: pro
David Kolovratník: prosím o upozornění na termín mailem !!!