====== PFL071-2 Vybrané problémy z lingvistiky I-II ====== **Vyučující:** Markéta Lopatková středa 12:20-13:50, východní chodba ve 4. patře (jako v ZS) [[http://www.mff.cuni.cz/vnitro/is/sis/predmety/kod.php?kod=PFL071|Stránka předmětu PFL071 ve Studijním informačním systému]] - anotace, osnova atd. [[http://www.mff.cuni.cz/vnitro/is/sis/predmety/kod.php?kod=PFL072|Stránka předmětu PFL072 ve Studijním informačním systému]] - anotace, osnova atd. ** Nabídka témat na letní semestr:** - Valence * Charakteristiha aktantů ve FGD * Alternační model slovníku * Valence u dalších slovních druhů - Koreference * Kučová et al.: Anotování koreference v Pražkém závislostním korpusu. UFAL/CKL Technical Report, TR 2003-19. * Kučová, L., Žabokrtský, Z.: Anaphora in Czech: large Data end Experiments with Automatic Anaphora Resolution. In: Preoceedings of TSD 2005, LNCS/Lecture Notes in Artificial Intelligence 3658, pp. 93-98, 2005. * Kučová, L., Hajičová, E.: Prague Dependency Treebank: Enrichment of the Underlying Syntactic Annotation by Coreferential Mark-Up. The Prague Bulletin of Mathematical Linguistics 81, pp. 23-34, 2004. - Aktuální členění (dr. Šárka Zigánová) - Význam ve FGD - synonymie, homonymie, vágnost - Slovosled a neprojektivita * Holan, T., Kuboň, V., Oliva, K., Plátek, M.: On Complexity of Word Order. In: Les grammaires de dépendance - Traitement automatique des langues, Vol 41, No 1, pp. 273-300, 2000. * Kuhlmann, M., Nivre, J.: Mildly Non-Projective Dependency Structures. In: proccedings of COLING-ACL 2006 Conference, Companion Volume, Sydney, 2006. * Havelka, J.: Projectivity in Totally Ordered Rooted Trees: An Alternative Definition of Projectivity and Optimal Algorithms for Detecting Non-Projective Edges and Projectivizing Totally Ordered Rooted Trees. The Prague Bulletin of Mathematical Linguistics 84, pp. 13-30, 2005. * Hajičová, E., Havelka, J., Sgall, P., Veselá, K., Zeman. D.: Issues of Projectivity in the Prague Dependency Treebank. The Prague Bulletin of Mathematical Linguistics 81, pp. 5-22, 2004. * Zeman, D.: Neprojektivita v Pražském závislostním korpusu (PDT).UFAL/CKL Technical Report TR-2004-22. 2004. * Hajičová, E.: K některým otázkám závislostní gramatiky. Slovo a Slovesnost 67, pp. 3-26, 2006. - Segmentace * Kuboň, V.: A Method for Analyzing Clause Complexity. The Prague Bulletin of Mathematical Linguistics 75, pp. 5-27, 2001. * Kuboň, V., Lopatková, M., Plátek, M., Pognan, P.: A Linguistically-Based Segmentation of Complex Sentences. In: Proceedings of Flairs 2007 Conference (in press). - Formální model TR ve FGD * Petkevič, V.: A New Formal Specification of Underlying Structure}. Theoretical Linguistics 21, 1995. * Lopatková, M.. Formální specifikace podkladové struktury pro popis přirozeného jazyka. In: Proceedings of Malý informatický seminář (MIS). Matfyzpress, Charles University, 2005. ===== Párování rámců ===== Cílem je vytvořit vzájemné mapování rámců z našich valenčních slovníků. Ve Vallexu i v PDT-Vallexu má každý rámec jednoznačný identifikátor. Zajímá nás, které rámce nebo skupiny rámců si navzájem odpovídají. * **PDT-VALLEX** {{:courses:pdt-vallex.pdf|pdt-vallex.pdf}} identifikátor (např. 'v-w113f4') je zapsán v horním indexu u rámce pozor na **stará data** z adresy http://ufal.mff.cuni.cz/pdt2.0/visual-data/pdt-vallex/vallex.html **neuživat prosím** * **Vallex 2.0** [[http://ufal.mff.cuni.cz/vallex/2.0/|http://ufal.mff.cuni.cz/vallex/2.0/]] identifikátory (například 'blu-v-pamatovat-se-1') jsou pro normální smrtelníky neviditelné. pokud podržíte myš nad číslem rámce (v rámečku) identifikátor se objeví jako tooltip **idéčka pro lepší kopírování si můžete zobrazit i následovně**: * v opeře si zvolte View/Style/User mode * ve firefoxu je nejlepší do souboru chrome/userContent.css v adresáři vašeho profilu zapsat .invisible {display:inline!important;} * v IE si předchozí css kód nastavíte podle [[http://webdesign.about.com/od/css/ht/htcssuseriewin.htm|tohoto návodu]] * ve firefoxu si také můžete následující bookmarklet uložit to bookmarků a vyvolat ho na stránce s vallexem 2.0 (showID bookmarklet) ===== Rámce k párování ===== Přihlašte se pomocí tlačítka v levém menu, vyberte si skupinu sloves a připište k ní své jméno. Odhalená párování pak zapisujte na stránky jednotlivých sloves. ^ Skupina 1 (Jan Ptáček) ^ ^ | [[lexaling:vidět (se)]] | 8+1 | | [[lexaling:přijít, přicházet]] | 21 | | [[lexaling:uvést, uvádět]] | 7 | | [[lexaling:zůstat, zůstávat]] | 14 | | [[lexaling:padat, padnout]] | 23 | | [[lexaling:vytahovat, vytáhnout (se)]] | 13+3 | | [[lexaling:platit]] | 9 | | [[lexaling:změnit (se)]] | 3+3 | | [[lexaling:jednat (se)]] | 4+1 | | [[lexaling:otevřít, otevírat, otvírat (se)]] | 2+2 | užívám Martinovu konvenci, případné rozdíly uvedené v popisu jsou označeny vykřičníkem ===== ===== ^Skupina 2 (Martin Popel)^^ | [[lexaling:hrát (si)]] | 8+2 | | [[lexaling:dělat (se, si)]] | 23+1+2 | | [[lexaling:říkat, říci (si)]] | 8+1 | | [[lexaling:najít, nacházet (se)]] | 4+3 | | [[lexaling:ležet]] | 13 | | [[lexaling:táhnout]] | 20+7 | | [[lexaling:dojít, docházet]] | 12 | | [[lexaling:stačit (I,II)]] | 5 | | [[lexaling:dokázat, dokazovat]] | 3+1 | | [[lexaling:rozhodnout, rozhodovat (se)]] | 2+2 | * Významy, které chyběly ve Vallexu, jsem přidal a označil //a, b, c,...// * Místo významů, které chyběly v PDT-V., jsem nechal prázdnou buňku v tabulce. Stejně se v PDT-V. stává, že některý význam (rámec) u dokonavého tvaru je a u nedokonavého chybí (a naopak) - tyto významy jde automaticky doplnit podle Vallexu. * Také jsem narazil na případy, kdy si rámce v podstatě odpovídají, jen je třeba doplnit/pozměnit funktory. Těchto případů je dost, ale jen v několika jsem změnu naznačil vallexím identifikátorem s připojeným písmenem (např. blu-v-říci-říct-říkat-7a) a vysvětlením v popisu. ===== ===== ^ Skupina 3 (Pavel Češka) ^ ^ | [[lexaling:získat, získávat (si)]] | 6+1 | | [[lexaling:nechat, nechávat]] | 16+1+3 | | [[lexaling:vydat, vydávat (se)]] | 8+2 | | [[lexaling:přijmout, přijímat]] | 10 | | [[lexaling:vyjít, vycházet (si)]] | 14+1 | | [[lexaling:ukázat, ukazovat (se)]] | 5+3 | | [[lexaling:cítit (se)]] | 4+3 | | [[lexaling:zdát se]] | 5 | | [[lexaling:začínat, začít (si)]] | 3+1 | | [[lexaling:znát]] | 2+2 | ===== ===== ^ Skupina 4 (David Mareček) ^ ^ | [[lexaling:patřit (se), I, II]] | 5+1+2 | | [[lexaling:vzít, brát (se,si)]] | 28+2+8 | | [[lexaling:vrátit, vracet]] | 4+3 | | [[lexaling:mluvit]] | 10 | | [[lexaling:natáhnout, natahovat (se)]] | 13+5 | | [[lexaling:pracovat]] | 8 | | [[lexaling:čekat (se)]] | 4+1 | | [[lexaling:skončit]] | 6 | | [[lexaling:tvrdit]] | 1+3 | | [[lexaling:vytvořit, vytvářet (se)]] | 2+1 | * používám stejného značení jako Martin ===== ===== ^ Skupina 5 (Kateřina Topilová) ^ ^ | [[lexaling:vést (se, si)]] | 8+2+1 | | [[lexaling:dávat, dát (se, si)]] | 32+6+4 | | [[lexaling:vypadat I,II, vypadávat, vypadnout]] | 7+3 | | [[lexaling:pouštět, pustit (se,si)]] | 13+4+1 | | [[lexaling:stavět I,II]] | 14+10+1+2 | | [[lexaling:představovat, představit (si)]] | 5+2 | | [[lexaling:počítat]] | 6 | | [[lexaling:dodat, dodávat]] | 5 | | [[lexaling:psát]] | 4 | | [[lexaling:pokračovat, pokročit]] | 3 | ===== ===== ^ Skupina 6 (Petra Hoffmannova)^ ^ | [[lexaling:udělat (se)]] | 7+3 | | [[lexaling:mít (se)]] | 22+3 | | [[lexaling:myslit, myslet (si)]] | 7+1 | | [[lexaling:chytat, chytnout, chytit]] | 13+6 | | [[lexaling:jít]] | 14 | | [[lexaling:dosáhnout, dosahovat]] | 6 | | [[lexaling:připravit, připravovat (se)]] | 4+1 | | [[lexaling:žít I, II]] | 4+2 | | [[lexaling:působit]] | 4 | | [[lexaling:věřit]] | 3 | ===== ===== ^ Skupina 7 (Adam Slavický) ^ ^ | [[lexaling:házet, hoditI, hoditII se]] | 12+5 | | [[lexaling:pokládat, položit (se)]] | 12+3 | | [[lexaling:postavit (se, si)]] | 12+6+1 | | [[lexaling:přecházet, přejít, přechodit]] | 12 | | [[lexaling:tlouci, tlouct (se)]] | 12+4 | | [[lexaling:činit (se)]] | 11+1 | | [[lexaling:držet (se)]] | 11+6 | | [[lexaling:koukat, kouknout (se)]] | 11+6 | | [[lexaling:nést (se)]] | 11+2 | | [[lexaling:scházet, sejít (se)]] | 11+2 | | [[lexaling:skládat, složit (se)]] | 11+5 | | [[lexaling:stahovat, stáhnout (se)]] | 11+6 | | [[lexaling:svádět, svést]] | 11 | ===== Q&A ===== V pdt-vallexu mi nefunguje hledání zřejmě kvůli kódování češtiny, neví někdo, jak to opravit? ptacek * Také mi to u diakritiky nefunguje. Mohu se úplně mýlit, ale vypadá to, jako by byla použita technologie minulého století: 7bitové (tedy jen ascii) písmo a samostatné akcenty nalepene TeXem nad patřičné znaky. Vypadá to pak jako čeština, ale v podstatě není. Hledání akcentovaných znaků tedy funguje dobře (hledá), leč nic nenajde (nejsou tam). Oprava v LaTexovém zdrojáku by neměla být příliš složitá. --P. Straňák ===== Aktuální členění 2.díl ===== Kdo má zájem o druhý díl z cyklu Aktuální členění, prosím poznamenejte se: Honza Ptáček: jsem pro David Mareček: pro Kateřina Topilová: pro Adam Slavický: pro David Kolovratník: prosím o upozornění na termín mailem !!!