http://lgame.ms.mff.cuni.cz/lgame
Presun LGame na novy server. Realizace s Milanem Fucikem. (Do konce ledna)\playlang_UFAL\doc\papers\2011_PBML_96
—
Originální anglické verze děl sira Arthura Conana Doyla je možno používat volně.
U modernějších českých překladů se musíme řídit zákonem o autorském právu.
Našel jsem Zákon č. 398/2006 Sb. - úplné znění zákona č. 121 /2000 Sb.; výňatek z tohoto zákona, který se nás týká:
§31 - Citace
(1) Do práva autorského nezasahuje ten, kdo
a) užije v odůvodněné míře výňatky ze zveřejněných děl jiných autorů ve svém díle,
b) užije výňatky z díla nebo drobná celá díla pro účely kritiky nebo recenze vztahující se k takovému dílu, vědecké či odborné tvorby a takové užití bude v souladu s poctivými zvyklostmi a v rozsahu vyžadovaném konkrétním účelem,
c) užije dílo při vyučování pro ilustrační účel nebo při vědeckém výzkumu, jejichž účelem není dosažení přímého nebo nepřímého hospodářského nebo obchodního prospěchu, a nepřesáhne rozsah odpovídající sledovanému účelu;
vždy je však nutno uvést, je-li to možné, jméno autora, nejde-li o dílo anonymní, nebo jméno osoby, pod jejímž jménem se dílo uvádí na veřejnost, a dále název díla a pramen.
(2) Do práva autorského nezasahuje ani ten, kdo výňatky z díla nebo drobná celá díla citovaná podle odstavce 1 písm. a) nebo b) dále užije; ustanovení odstavce 1 části věty za středníkem platí obdobně.
Závěr JM: Pro naše účely můžeme i novější český překlad použít; měli bychom ale pod nějaký odkaz dát jméno autora překladu a odkaz, odkud jsme to stáhli.
Zadame Vas proto o uhrazeni platby s temito parametry:
Ucet: 1061626001/5500 (Raiffeisenbank)
Castka: 1800,00 Kc
Variabilni symbol: 33922011
Konstantni symbol: ponechte prazdny nebo 0558
Podrobny rozpis sluzeb:
Cena (s DPH) Popis sluzby
1200,00 Kc Hosting domeny lgame.cz 12 mesicu v hostingovem programu Cesky hosting
300,00 Kc Udrzovaci poplatek domeny lgame.cz na 12 mesicu
300,00 Kc Udrzovaci poplatek domeny lgame.eu na 12 mesicu
Celkem k uhrade (vcetne DPH): 1800,00 Kc
affect recognition, word similarity, recognizing textual entailment, event temporal ordering, word sense disambiguation
; see discussion at Dolores' blog
Date: Fri, 10 Oct 2008 09:42:43 +0200, updated on Tue, 7 Apr 2009
From: Jiří Mírovský
napadly me dve dalsi jazykove hry, ale bohuzel nejsou lingvisticky uzitecne
(nenapada me, jak ta data vyuzit) - jen by mohly byt zabavne pro hrace a
naladit je na jine, mene zabavne lingvisticke hry.
Plus jedna, ktera by uzitecna byt mohla.
Projekt využívá SVN repozitář, návod k použití zde:
https://svn.ms.mff.cuni.cz/projects/PlayLang
Samotná textová data nejsou ovšem součástí repozitáře (k pracovní kopii se jen přilinkují, viz návod v odkazu výše), k nalezení jsou zde:
/net/projects/playlang_shared
Date: Wed, 24 Dec 2008
Updates: 6 Jan 2009, 27 Mar 2009, 21 Jan 2011
From: Jiří Mírovský
Důvody:
Alternativně používáme také rozšíření a-roviny z PDT 2.0.
Data pro projekt playlang jsou v adresáři: {ROOT}/playcoref/data/shared
PML schémata jsou zde: {ROOT}/playcoref/tred_extension/package/playlang/resources
coref
- seznam struktur pro anotaci koreference; o strukturu jde proto, aby šly snadno přidat další atributy (podobně jako v projektu anotování rozšířené textové koreference); obsahuje atributy:target-node.rf
- id antecedentatype
- určuje, o jakou koreferenci jde: textual, grammatical nebo chained (chained znamená: na povrchové rovině je to jeden link, na tekto rovině je to více linků vedoucích přes uzel, který nemá povrchové vyjádření)lock
- pro účely hry PlayCoref zamyká či odemyká jednotlivé šipky (hodnoty: locked/unlocked)named_entity
s těmito atributy:last_member.rf
- id uzlu, kde pojmenovaná entita končí (začíná na aktuálním uzlu)head_member.rf
- id uzlu, který je hlavou pojmenované entity
V adresáři {ROOT}/playcoref/scripts
jsou skripty pro převod textové a gramatické koreference z rozšířené tektogramatické roviny projektu bridging do rozšířené m-roviny nebo do rozšířené a-roviny:
_change_mschema_to_playlang.sh
- změní schéma m-souborů na mdata_schema_playlang.xml_change_aschema_to_playlang.sh
- změní schéma a-souborů na adata_schema_playlang.xml (m-soubor je pak klasický z PDT 2.0)coreference_extract_surface_joint.ntred
- prochází textovou a gramatickou koreferenci na t-rovině z projektu anotování rozšířené textové koreference a vypíše seznam koreferenčních dvojic - identifikátorů příslušných koreferenčních lemmat na m-rovině; pokud antecedent nemá povrchové vyjádření, hledá se nejbližší antecedent v řetězci, který povrchové vyjádření mácoreference_extract_surface_a_joint.ntred
- totéž, ale pro a-rovinu, tj. vypisují se identifikátory a-uzlů odpovídajících koreferenčním dvojicím z t-rovinycoreference_add_m.ntred
- ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině a tyto koreference vkládá do rozšířené m-rovinycoreference_add_a.ntred
- ze seznamu bere dvojice identifikátorů koreferenčních lemmat na a-rovině a tyto koreference vkládá do rozšířené a-rovinycoreference_lock.ntred
- koreferenční šipky opatří správnými hodnotami atributu lockne_atrees_to_txt.pl
a nachází se v TectoMT repozitáři v adresáři personal/mirovsky/coreference
.named_entities_add_a.ntred
- ze seznamu bere id uzlů a informaci o pojmenovaných entitách vkládá do rozšířené a- nebo m-rovinyPro vkládání dat do herní databáze používáme formát csts.
convert_atrees_to_csts.ntred
- skript pro převod rozšířené a-roviny obsahující koreferenci (a případně pojmenované entity) do rozšířeného cstsVyužíváme analýzu v modulárním systému TectoMT.
Postup při zpracování české verze Studie v Šarlatové byl tento:
personal/mirovsky/coreference/sc_CzNEMWRecognition.scen
.)ne_atrees_to_txt.pl
do textového souboru; z něj pak jdou později vložit do stejných dat v jiném formátu než tmt (pro mne je to schůdnější cesta než psát/upravovat přímou konverzi z tmt do pdt tak, aby uměla i pojmenované entity).tools/format_convertors/tmt_to_pdt
:tmt-to-pdt.pl -a amdata_schema.xml soubor.tmt
… vznikne t-soubor a a-soubor s vloženými m a w rovinami; tento a-soubor dále filtruji a získávám z něj samostatné w- a m-soubory (používám vlastní skripty ma_to_w.pl
a ma_to_m.pl
(PlayLang→playcoref/scripts/tmt_to_pdt
)tmt-to-pdt.pl soubor.tmt
… spustím to znovu bez přepínače, tak získám čistý a-souborfix_id_ta.pl
a fix_id_mw.pl
+ drobné ruční úpravy).Je potřeba převádět jinak, neboť v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. Automatické doplnění není spolehlivé.
Pro češtinu proto používám tool-chain z projektu ČAK. Bohužel mi nefunguje (a nevím proč) tool-chain až na a-rovinu, a tak ho používám jen na m-rovinu, navíc jen v csts. Ale to pro tyto účely stačí! Vstupní text musí být v ISO-LATIN-2, což znamená, že některé znaky (spodní a horní uvozovky, dlouhé pomlčky a další) je potřeba napřed nahradit standardními ekvivalenty. Tokenizer je v tool-chainu lepší než v TectoMT, a tak není potřeba dávat tečky za nadpisy a lépe se vypořádá s tečkami uprostřed vět. Nový řádek znamená konec věty - ve vstupním textu tedy nesmí být věty přerušeny novým řádkem; nový odstavec bude tam, kde je ve vstupním textu prázdný řádek.
Vzniklý csts soubor převedu do UTF-8, pomocí skriptu PlayLang→playcoref/scripts/txt_to_csts/_csts_fill_ids.pl
dodělám id k elementům <f> a <d>; následně vyberu věty minimální délky 6 (a pro Shannona bez interpunkce) pomocí skriptu PlayLang→playcoref/scripts/_csts_filter_sentences.pl
. (Id-čka předtím ještě zkracuju (aby byla jen pXsYwZ) a také nahrazuju elementy <MD[lt] src=“m”> pouhými <[lt]>.)
Pro Tred existuje rozšíření Play the Language (playlang), nainstalovat lze přes Session→Manage Extensions.
(zdroj: {ROOT}/playcoref/tred_extension
)
Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových “stromů” a kontextových vět a v nich zvýrazňuje prvky koreferenčních řetízků, ve kterých se účastní aktuální slovo. Zamčené a nezamčené koreferenční šipky zobrazuje odlišně.
Pozor, při otvírání souborů s maskou *.m.gz v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na “všechny soubory”, aby byly soubory s touto maskou vidět.
Ovládání:
Ctrl+t - zapne/vypne zobrazení šipek koreference a zvýraznění prvků koreferenčních řetízků aktuálního slova v kontextových větách
Alt+p - přepne do čistě morfologického módu - nejsou zobrazeny kontextové “stromy” a věty, nezobrazují se koreferenční šipky
Alt+c - přepne do módu playcoref - zobrazují se kontextové “stromy” a věty, zobrazují se koreferenční šipky i slova
Aktuální uzel lze měnit jak kliknutím na uzel, tak i jednoduchým kliknutím na slovo v kontextových větách.