====== PFL071-2 Vybrané problémy z lingvistiky I-II ======
**Vyučující:**
Markéta Lopatková
středa 12:20-13:50, východní chodba ve 4. patře (jako v ZS)
[[http://www.mff.cuni.cz/vnitro/is/sis/predmety/kod.php?kod=PFL071|Stránka předmětu PFL071 ve Studijním informačním systému]] - anotace, osnova atd.
[[http://www.mff.cuni.cz/vnitro/is/sis/predmety/kod.php?kod=PFL072|Stránka předmětu PFL072 ve Studijním informačním systému]] - anotace, osnova atd.
** Nabídka témat na letní semestr:**
- Valence
* Charakteristiha aktantů ve FGD
* Alternační model slovníku
* Valence u dalších slovních druhů
- Koreference
* Kučová et al.: Anotování koreference v Pražkém závislostním korpusu. UFAL/CKL Technical Report, TR 2003-19.
* Kučová, L., Žabokrtský, Z.: Anaphora in Czech: large Data end Experiments with Automatic Anaphora Resolution. In: Preoceedings of TSD 2005, LNCS/Lecture Notes in Artificial Intelligence 3658, pp. 93-98, 2005.
* Kučová, L., Hajičová, E.: Prague Dependency Treebank: Enrichment of the Underlying Syntactic Annotation by Coreferential Mark-Up. The Prague Bulletin of Mathematical Linguistics 81, pp. 23-34, 2004.
- Aktuální členění (dr. Šárka Zigánová)
- Význam ve FGD - synonymie, homonymie, vágnost
- Slovosled a neprojektivita
* Holan, T., Kuboň, V., Oliva, K., Plátek, M.: On Complexity of Word Order. In: Les grammaires de dépendance - Traitement automatique des langues, Vol 41, No 1, pp. 273-300, 2000.
* Kuhlmann, M., Nivre, J.: Mildly Non-Projective Dependency Structures. In: proccedings of COLING-ACL 2006 Conference, Companion Volume, Sydney, 2006.
* Havelka, J.: Projectivity in Totally Ordered Rooted Trees: An Alternative Definition of Projectivity and Optimal Algorithms for Detecting Non-Projective Edges and Projectivizing Totally Ordered Rooted Trees. The Prague Bulletin of Mathematical Linguistics 84, pp. 13-30, 2005.
* Hajičová, E., Havelka, J., Sgall, P., Veselá, K., Zeman. D.: Issues of Projectivity in the Prague Dependency Treebank. The Prague Bulletin of Mathematical Linguistics 81, pp. 5-22, 2004.
* Zeman, D.: Neprojektivita v Pražském závislostním korpusu (PDT).UFAL/CKL Technical Report TR-2004-22. 2004.
* Hajičová, E.: K některým otázkám závislostní gramatiky. Slovo a Slovesnost 67, pp. 3-26, 2006.
- Segmentace
* Kuboň, V.: A Method for Analyzing Clause Complexity. The Prague Bulletin of Mathematical Linguistics 75, pp. 5-27, 2001.
* Kuboň, V., Lopatková, M., Plátek, M., Pognan, P.: A Linguistically-Based Segmentation of Complex Sentences. In: Proceedings of Flairs 2007 Conference (in press).
- Formální model TR ve FGD
* Petkevič, V.: A New Formal Specification of Underlying Structure}. Theoretical Linguistics 21, 1995.
* Lopatková, M.. Formální specifikace podkladové struktury pro popis přirozeného jazyka. In: Proceedings of Malý informatický seminář (MIS). Matfyzpress, Charles University, 2005.
===== Párování rámců =====
Cílem je vytvořit vzájemné mapování rámců z našich valenčních slovníků.
Ve Vallexu i v PDT-Vallexu má každý rámec jednoznačný identifikátor.
Zajímá nás, které rámce nebo skupiny rámců si navzájem odpovídají.
* **PDT-VALLEX** {{:courses:pdt-vallex.pdf|pdt-vallex.pdf}}
identifikátor (např. 'v-w113f4') je zapsán v horním indexu u rámce
pozor na **stará data** z adresy http://ufal.mff.cuni.cz/pdt2.0/visual-data/pdt-vallex/vallex.html **neuživat prosím**
* **Vallex 2.0** [[http://ufal.mff.cuni.cz/vallex/2.0/|http://ufal.mff.cuni.cz/vallex/2.0/]]
identifikátory (například 'blu-v-pamatovat-se-1') jsou pro normální smrtelníky neviditelné.
pokud podržíte myš nad číslem rámce (v rámečku) identifikátor se objeví jako tooltip
**idéčka pro lepší kopírování si můžete zobrazit i následovně**:
* v opeře si zvolte View/Style/User mode
* ve firefoxu je nejlepší do souboru chrome/userContent.css v adresáři vašeho profilu zapsat .invisible {display:inline!important;}
* v IE si předchozí css kód nastavíte podle [[http://webdesign.about.com/od/css/ht/htcssuseriewin.htm|tohoto návodu]]
* ve firefoxu si také můžete následující bookmarklet uložit to bookmarků a vyvolat ho na stránce s vallexem 2.0
(showID bookmarklet)
===== Rámce k párování =====
Přihlašte se pomocí tlačítka v levém menu, vyberte si skupinu sloves a připište k ní své jméno. Odhalená párování pak zapisujte na stránky jednotlivých sloves.
^ Skupina 1 (Jan Ptáček) ^ ^
| [[lexaling:vidět (se)]] | 8+1 |
| [[lexaling:přijít, přicházet]] | 21 |
| [[lexaling:uvést, uvádět]] | 7 |
| [[lexaling:zůstat, zůstávat]] | 14 |
| [[lexaling:padat, padnout]] | 23 |
| [[lexaling:vytahovat, vytáhnout (se)]] | 13+3 |
| [[lexaling:platit]] | 9 |
| [[lexaling:změnit (se)]] | 3+3 |
| [[lexaling:jednat (se)]] | 4+1 |
| [[lexaling:otevřít, otevírat, otvírat (se)]] | 2+2 |
užívám Martinovu konvenci, případné rozdíly uvedené v popisu jsou označeny vykřičníkem
===== =====
^Skupina 2 (Martin Popel)^^
| [[lexaling:hrát (si)]] | 8+2 |
| [[lexaling:dělat (se, si)]] | 23+1+2 |
| [[lexaling:říkat, říci (si)]] | 8+1 |
| [[lexaling:najít, nacházet (se)]] | 4+3 |
| [[lexaling:ležet]] | 13 |
| [[lexaling:táhnout]] | 20+7 |
| [[lexaling:dojít, docházet]] | 12 |
| [[lexaling:stačit (I,II)]] | 5 |
| [[lexaling:dokázat, dokazovat]] | 3+1 |
| [[lexaling:rozhodnout, rozhodovat (se)]] | 2+2 |
* Významy, které chyběly ve Vallexu, jsem přidal a označil //a, b, c,...//
* Místo významů, které chyběly v PDT-V., jsem nechal prázdnou buňku v tabulce. Stejně se v PDT-V. stává, že některý význam (rámec) u dokonavého tvaru je a u nedokonavého chybí (a naopak) - tyto významy jde automaticky doplnit podle Vallexu.
* Také jsem narazil na případy, kdy si rámce v podstatě odpovídají, jen je třeba doplnit/pozměnit funktory. Těchto případů je dost, ale jen v několika jsem změnu naznačil vallexím identifikátorem s připojeným písmenem (např. blu-v-říci-říct-říkat-7a) a vysvětlením v popisu.
===== =====
^ Skupina 3 (Pavel Češka) ^ ^
| [[lexaling:získat, získávat (si)]] | 6+1 |
| [[lexaling:nechat, nechávat]] | 16+1+3 |
| [[lexaling:vydat, vydávat (se)]] | 8+2 |
| [[lexaling:přijmout, přijímat]] | 10 |
| [[lexaling:vyjít, vycházet (si)]] | 14+1 |
| [[lexaling:ukázat, ukazovat (se)]] | 5+3 |
| [[lexaling:cítit (se)]] | 4+3 |
| [[lexaling:zdát se]] | 5 |
| [[lexaling:začínat, začít (si)]] | 3+1 |
| [[lexaling:znát]] | 2+2 |
===== =====
^ Skupina 4 (David Mareček) ^ ^
| [[lexaling:patřit (se), I, II]] | 5+1+2 |
| [[lexaling:vzít, brát (se,si)]] | 28+2+8 |
| [[lexaling:vrátit, vracet]] | 4+3 |
| [[lexaling:mluvit]] | 10 |
| [[lexaling:natáhnout, natahovat (se)]] | 13+5 |
| [[lexaling:pracovat]] | 8 |
| [[lexaling:čekat (se)]] | 4+1 |
| [[lexaling:skončit]] | 6 |
| [[lexaling:tvrdit]] | 1+3 |
| [[lexaling:vytvořit, vytvářet (se)]] | 2+1 |
* používám stejného značení jako Martin
===== =====
^ Skupina 5 (Kateřina Topilová) ^ ^
| [[lexaling:vést (se, si)]] | 8+2+1 |
| [[lexaling:dávat, dát (se, si)]] | 32+6+4 |
| [[lexaling:vypadat I,II, vypadávat, vypadnout]] | 7+3 |
| [[lexaling:pouštět, pustit (se,si)]] | 13+4+1 |
| [[lexaling:stavět I,II]] | 14+10+1+2 |
| [[lexaling:představovat, představit (si)]] | 5+2 |
| [[lexaling:počítat]] | 6 |
| [[lexaling:dodat, dodávat]] | 5 |
| [[lexaling:psát]] | 4 |
| [[lexaling:pokračovat, pokročit]] | 3 |
===== =====
^ Skupina 6 (Petra Hoffmannova)^ ^
| [[lexaling:udělat (se)]] | 7+3 |
| [[lexaling:mít (se)]] | 22+3 |
| [[lexaling:myslit, myslet (si)]] | 7+1 |
| [[lexaling:chytat, chytnout, chytit]] | 13+6 |
| [[lexaling:jít]] | 14 |
| [[lexaling:dosáhnout, dosahovat]] | 6 |
| [[lexaling:připravit, připravovat (se)]] | 4+1 |
| [[lexaling:žít I, II]] | 4+2 |
| [[lexaling:působit]] | 4 |
| [[lexaling:věřit]] | 3 |
===== =====
^ Skupina 7 (Adam Slavický) ^ ^
| [[lexaling:házet, hoditI, hoditII se]] | 12+5 |
| [[lexaling:pokládat, položit (se)]] | 12+3 |
| [[lexaling:postavit (se, si)]] | 12+6+1 |
| [[lexaling:přecházet, přejít, přechodit]] | 12 |
| [[lexaling:tlouci, tlouct (se)]] | 12+4 |
| [[lexaling:činit (se)]] | 11+1 |
| [[lexaling:držet (se)]] | 11+6 |
| [[lexaling:koukat, kouknout (se)]] | 11+6 |
| [[lexaling:nést (se)]] | 11+2 |
| [[lexaling:scházet, sejít (se)]] | 11+2 |
| [[lexaling:skládat, složit (se)]] | 11+5 |
| [[lexaling:stahovat, stáhnout (se)]] | 11+6 |
| [[lexaling:svádět, svést]] | 11 |
===== Q&A =====
V pdt-vallexu mi nefunguje hledání zřejmě kvůli kódování češtiny,
neví někdo, jak to opravit? ptacek
* Také mi to u diakritiky nefunguje. Mohu se úplně mýlit, ale vypadá to, jako by byla použita technologie minulého století: 7bitové (tedy jen ascii) písmo a samostatné akcenty nalepene TeXem nad patřičné znaky. Vypadá to pak jako čeština, ale v podstatě není. Hledání akcentovaných znaků tedy funguje dobře (hledá), leč nic nenajde (nejsou tam). Oprava v LaTexovém zdrojáku by neměla být příliš složitá. --P. Straňák
===== Aktuální členění 2.díl =====
Kdo má zájem o druhý díl z cyklu Aktuální členění, prosím poznamenejte se:
Honza Ptáček: jsem pro
David Mareček: pro
Kateřina Topilová: pro
Adam Slavický: pro
David Kolovratník: prosím o upozornění na termín mailem !!!