Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:playlang [2011/01/21 15:37] mirovsky |
user:hladka:playlang [2011/01/28 11:43] ufal |
||
---|---|---|---|
Line 43: | Line 43: | ||
* **Ukoly pro Jirku** | * **Ukoly pro Jirku** | ||
- | - Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby " | + | - Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby " |
- Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna) | - Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna) | ||
- exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//) | - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//) | ||
- vypsat projekty (//Do konce unora//) | - vypsat projekty (//Do konce unora//) | ||
* **Ukoly pro Baru** | * **Ukoly pro Baru** | ||
- | - sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//) | + | |
- promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//) | - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//) | ||
- nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn '' | - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn '' | ||
Line 64: | Line 64: | ||
* ... | * ... | ||
* **Vypsat rocnikove projekty, bakalarky, diplomky!** VOlnost v technologiich, | * **Vypsat rocnikove projekty, bakalarky, diplomky!** VOlnost v technologiich, | ||
+ | |||
+ | ==== Autorské právo ==== | ||
+ | Originální anglické verze děl sira Arthura Conana Doyla je možno používat volně. | ||
+ | U modernějších českých překladů se musíme řídit zákonem o autorském právu. | ||
+ | Našel jsem Zákon č. 398/2006 Sb. - úplné znění zákona č. 121 /2000 Sb.; výňatek z tohoto zákona, který se nás týká: | ||
+ | |||
+ | §31 - Citace | ||
+ | (1) Do práva autorského nezasahuje ten, kdo | ||
+ | a) užije v odůvodněné míře výňatky ze zveřejněných děl jiných autorů ve svém díle, | ||
+ | b) **užije výňatky z díla nebo drobná celá díla pro účely** kritiky nebo recenze vztahující se k takovému dílu, **vědecké či odborné tvorby a takové užití bude v souladu s poctivými zvyklostmi a v rozsahu vyžadovaném konkrétním účelem,** | ||
+ | c) **užije dílo** při vyučování pro ilustrační účel nebo **při vědeckém výzkumu, jejichž účelem není dosažení přímého nebo nepřímého hospodářského nebo obchodního prospěchu, a nepřesáhne rozsah odpovídající sledovanému účelu;** | ||
+ | **vždy je však nutno uvést, je-li to možné, jméno autora,** nejde-li o dílo anonymní, nebo jméno osoby, pod jejímž jménem se dílo uvádí na veřejnost, **a dále název díla a pramen.** | ||
+ | (2) Do práva autorského nezasahuje ani ten, kdo výňatky z díla nebo drobná celá díla citovaná podle odstavce 1 písm. a) nebo b) dále užije; ustanovení odstavce 1 části věty za středníkem platí obdobně. | ||
+ | |||
+ | **Závěr JM:** Pro naše účely můžeme i novější český překlad použít; měli bychom ale pod nějaký odkaz dát jméno autora překladu a odkaz, odkud jsme to stáhli. | ||
==== Prezentace, demonstrace, | ==== Prezentace, demonstrace, | ||
Line 180: | Line 195: | ||
Alternativně používáme také rozšíření a-roviny z PDT 2.0. | Alternativně používáme také rozšíření a-roviny z PDT 2.0. | ||
+ | |||
+ | Data pro projekt playlang jsou v adresáři: '' | ||
==== Schémata rozšířené m-roviny a rozšířené a-roviny: ==== | ==== Schémata rozšířené m-roviny a rozšířené a-roviny: ==== | ||
- | PML schémata jsou zde: {ROOT}/ | + | PML schémata jsou zde: '' |
- | * obě schémata (a- i m-) obsahují rozšíření o seznam struktur pro anotaci koreference; | + | * obě schémata (a- i m-) obsahují rozšíření o atribut '' |
- | * target-node.rf - id antecedenta | + | * '' |
- | * type - určuje, o jakou koreferenci jde: textual, grammatical nebo chained (chained znamená: na povrchové rovině je to jeden link, na tekto rovině je to více linků vedoucích přes uzel, který nemá povrchové vyjádření) | + | * '' |
- | * lock - pro účely hry PlayCoref zamyká či odemyká jednotlivé šipky (hodnoty: locked/ | + | * '' |
- | * dalším rozšířením obou schémat je možnost vkládat informaci o pojmenovaných entitách, a to ve struktuře s těmito atributy: | + | * dalším rozšířením obou schémat je možnost vkládat informaci o pojmenovaných entitách, a to ve struktuře |
- | * last_member.rf - kde pojmenovaná entita končí (začíná na aktuálním uzlu) | + | * '' |
- | * head_member.rf - který | + | * '' |
+ | |||
+ | ==== Převod dat PDT 2.0 (rozšíření bridging) do formátu playlang: ==== | ||
+ | V adresáři '' | ||
+ | |||
+ | == Nejprve se změní schéma souboru (m- nebo a-): == | ||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | == Pak se z rozšířené t-roviny získá seznam koreferenčních dvojic promítnutých na uzly a-roviny nebo m-roviny: == | ||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | == Nakonec se koreferenční dvojice z daného seznamu vloží do rozšířeného m-souboru nebo a-souboru: == | ||
+ | * '' | ||
+ | * '' | ||
+ | |||
+ | == Některé koreferenční vztahy je možno zamknout: == | ||
+ | * '' | ||
+ | |||
+ | === Pojmenované entity === | ||
+ | == Nejprve je potřeba získat seznam pojmenovaných entit: == | ||
+ | * To se provádí v TectoMT (kde se ostatně pojmenované entity v souborech automaticky označí). Skript pro vytvoření seznamu pojmenovaných entit se jmenuje '' | ||
+ | |||
+ | == Pojmenované entity z vytvořeného seznamu se vloží do rozšířeného a-souboru (zatím nebyl potřeba skript i pro m-soubor): == | ||
+ | * '' | ||
+ | |||
+ | === Vkládání dat do herní databáze === | ||
+ | Pro vkládání dat do herní databáze používáme formát csts. | ||
+ | |||
+ | == Převod rozšířené a-roviny do rozšířeného csts == | ||
+ | * '' | ||
+ | |||
+ | ==== Převod dat z prostého textu do formátu playlang: ==== | ||
+ | |||
+ | === Převod pro PlayCoref === | ||
+ | Využíváme analýzu v modulárním systému TectoMT. | ||
+ | |||
+ | Postup při zpracování české verze Studie v Šarlatové byl tento: | ||
+ | - Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná. | ||
+ | - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT; použil jsem i bloky pro přidání gramatické koreference. | ||
+ | - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: '' | ||
+ | - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu '' | ||
+ | - Pak nastává převod do formátu PDT. Používám skript z TectoMT->'' | ||
+ | * '' | ||
+ | * '' | ||
+ | * V takto získaných datech je ještě potřeba upravit identifikátory (vlastní skripty '' | ||
- | === Převod | + | === Převod |
- | V adresáři {ROOT}/ | + | Je potřeba převádět jinak, neboť v TectoMT |
- | * _change_mschema_to_playlang.sh | + | Používám proto tool-chain z projektu ČAK. Bohužel mi nefunguje (a nevím proč) tool-chain až na a-rovinu, |
- | * _change_aschema_to_playlang.sh - změní schéma | + | |
- | * coreference_extract_surface_joint.ntred | + | |
- | * coreference_extract_surface_a_joint.ntred | + | |
- | * coreference_add_m.ntred - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na m-rovině | + | |
- | * coreference_add_a.ntred - ze seznamu bere dvojice identifikátorů koreferenčních lemmat na a-rovině a tyto koreference vkládá do rozšířené a-roviny | + | |
- | * coreference_lock.ntred - koreferenční | + | |
- | Aktuálně | + | Vzniklý csts soubor |
==== Zobrazení v Tredu: ==== | ==== Zobrazení v Tredu: ==== | ||
Pro Tred existuje rozšíření //Play the Language (playlang)//, | Pro Tred existuje rozšíření //Play the Language (playlang)//, | ||
- | (zdroj: {ROOT}/ | + | (zdroj: |
Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových " | Umožňuje otevřít rozšířené m-soubory nebo rozšířené a-soubory a zobrazit koreferenční šipky. Nastavuje zobrazení kontextových " | ||
Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na " | Pozor, při otvírání souborů s maskou //*.m.gz// v souborovém dialogu v Tredu je potřeba přepnout filtr souborů na " |