Differences
This shows you the differences between two versions of the page.
| Next revision | Previous revision | ||
|
user:kruza:manatee-howto [2008/05/14 14:43] kruza vytvořeno |
user:kruza:manatee-howto [2008/05/15 07:50] (current) kruza |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| + | ====== Jak na Manatee / Bonito: Tipy pro správce ====== | ||
| + | //Tento dokument se vztahuje na Manatee verzi 1.49. Nesnažím se zde o úplnost, ale o přehled toho, co jsem seznal užitečným a co mi stačilo.// | ||
| + | |||
| + | ===== Instalace Manatee ===== | ||
| + | |||
| Máme: server na síti | Máme: server na síti | ||
| Chceme: připojit se k němu z Bonita a browsit v korpusech | Chceme: připojit se k němu z Bonita a browsit v korpusech | ||
| - | //Tento dokument se vztahuje na Manatee verzi 1.49. Nesnažím se zde o úplnost, | ||
| - | ale o přehled toho, co jsem seznal užitečným a co mi stačilo.// | ||
| Dokumentace k Manatee: (v adresáři manatee) | Dokumentace k Manatee: (v adresáři manatee) | ||
| README | README | ||
| Line 28: | Line 31: | ||
| se postará admin serveru. | se postará admin serveru. | ||
| + | |||
| + | ===== Příprava korpusu ===== | ||
| + | |||
| + | Máme: korpus v PML (nebo v jiném formátu, který přelouská btred) | ||
| + | Chceme: korpus přístupný přes bonito | ||
| + | |||
| + | Dokumentace k Manatee: (v adresáři manatee) | ||
| + | * krok 1: | ||
| + | * krok 2: | ||
| + | * krok 3,4: README | ||
| + | * krok 5: $ ./chuser -help | ||
| + | * krok 6: | ||
| + | |||
| + | |||
| + | Kroky: | ||
| + | - Příprava vertikály | ||
| + | - Konfigurace korpusu | ||
| + | - Konverze do formátu Manatee | ||
| + | - Instalace | ||
| + | - Konfigurace uživatelů | ||
| + | - Připojení z Bonita | ||
| + | |||
| + | |||
| + | ==== 1. Příprava vertikály ==== | ||
| + | |||
| + | |||
| + | Vertikála je textový formát, ze kterého jediného lze zkonstruovat korpus | ||
| + | přístupný pro systém Manatee/ | ||
| + | se pro tokeny zakódují. Hodnoty každého tokenu jsou pak na zvláštním řádku | ||
| + | oddělené tabulátorem. | ||
| + | |||
| + | Příklad: Chceme-li v korpusu mít formu, lemma a formu rodiče, mohou věty "// | ||
| + | prší. To nevadí.//" | ||
| + | |||
| + | Dnes dnes prší | ||
| + | prší | ||
| + | . | ||
| + | | ||
| + | To to nevadí | ||
| + | nevadí | ||
| + | . | ||
| + | |||
| + | Věty jsou odděleny prázdným řádkem. | ||
| + | Kódování se specifikuje v konfiguráku (viz krok 2). Atributy (sloupce) mohou | ||
| + | být vícehodnotové. Např. při nedisambiguované morfologické analýze může být | ||
| + | pro každý token více tagů a lemmat. V konfiguráku se nastaví, že atribut je | ||
| + | vícehodnotový a jakým znakem jsou hodnoty separovány. Budeme-li sledovat formu | ||
| + | a vícehodnotové lemma s oddělovačem mezerou, pak věta "Žena prasata jí." bude | ||
| + | mít vertikální zápis: | ||
| + | |||
| + | Žena žena hnát | ||
| + | prasata prase | ||
| + | jí ona jíst | ||
| + | . . | ||
| + | |||
| + | Kromě tokenů se ve vertikále mohou vyskytovat i XML tagy. Vertikála však není | ||
| + | XML dokument, takže žádný kořenový tag, žádné DTD atd. Každý tag na zvláštním | ||
| + | řádku. | ||
| + | |||
| + | <s id=" | ||
| + | Dnes dnes prší | ||
| + | prší | ||
| + | . | ||
| + | </s> | ||
| + | | ||
| + | <s id=" | ||
| + | To to nevadí | ||
| + | nevadí | ||
| + | . | ||
| + | </s> | ||
| + | |||
| + | |||
| + | ==== 2. Konfigurace korpusu ==== | ||
| + | |||
| + | Jméno konfiguračního souboru musí být shodné se jménem korpusu, jak se bude | ||
| + | jevit v Bonitu. Cesta k němu (pouze adresář) je dána proměnnou prostředí | ||
| + | **MANATEE_REGISTRY**. | ||
| + | Konfigurák má formu dvojic jméno_atributu - hodnota. Hodnota buď " | ||
| + | není-li formy céčkového identifikátoru. Za ní může následovat {blok} a v něm | ||
| + | další dvojice jméno-hodnota, | ||
| + | |||
| + | Uvádívám tyto atributy: | ||
| + | * PATH: kam se mají zapsat soubory korpusu (klíďo relativní cesta). | ||
| + | * ENCODING: kódování vertikály. POZOR! latin-2 má tvar " | ||
| + | * VERTICAL: cesta k vertikále. | ||
| + | * STRUCTURE: deklarace XML tagu | ||
| + | * ATTRIBUTE: definice atributu (sloupce ve vertikále); | ||
| + | |||
| + | Příklad vertikály výše by mohl mít konfigurák: | ||
| + | PATH " | ||
| + | ENCODING " | ||
| + | VERTICAL " | ||
| + | ATTRIBUTE form{ | ||
| + | LOCALE " | ||
| + | } | ||
| + | ATTRIBUTE lemma{ | ||
| + | LOCALE " | ||
| + | MULTIVALUE yes | ||
| + | MULTISEP " " | ||
| + | } | ||
| + | ATTRIBUTE parent | ||
| + | STRUCTURE s | ||
| + | |||
| + | Atribut //parent// by měl taky mít uvedené lokále. Vynechal jsem ho, aby bylo | ||
| + | patrno, že v definici atributu se blok použít nemusí. | ||
| + | |||
| + | |||
| + | ==== 3. Konverze do formátu Manatee ==== | ||
| + | |||
| + | Z vertikály se soubory čitelné programem Manatee udělají pomocí programu | ||
| + | **encodevert**, | ||
| + | |||
| + | export MANATEE_REGISTRY=. # | ||
| + | / | ||
| + | |||
| + | Toto způsobí, že se v adresáři ./ | ||
| + | |||
| + | |||
| + | ==== 4. Instalace ==== | ||
| + | |||
| + | Korpus může být buď na serveru nebo na lokálním počítači. V Bonitu si uživatel | ||
| + | vybírá, zda se chce připojit na server nebo spustit manateesrv lokálně. | ||
| + | |||
| + | Jest-li korpus na lokální mašině, je nejjednodušší, | ||
| + | v témže adresáři jako bonito a konfigurák korpusu. Cesta k manateesrv jde ale | ||
| + | specifikovat v běžícím Bonitu i v jeho konfiguráku (resource). | ||
| + | Taktéž umístění konfiguráku korpusu jde specifikovat pomocí nastavení proměnné | ||
| + | prostředí **MANATEE_REGISTRY**. | ||
| + | |||
| + | Chceme-li mít korpus na serveru a připojovat se po síti, pak je potřeba dát | ||
| + | konfigurák korpusu i korpus sám na serveru do správných adresářů. Ty jsou dány | ||
| + | na začátku souboru runm.pl, což je wrapper pro manateesrv. | ||
| + | |||
| + | |||
| + | ==== 5. Konfigurace uživatelů ==== | ||
| + | |||
| + | V adresáři manatee je soubor users, ve kterém se nastavuje, který uživatel | ||
| + | může přistupovat k jakému korpusu, jaké je jeho jeslo atd. V políčku před | ||
| + | poslední dvojtečkou je mezerami oddělený seznam jmen korpusů, ke kterým se | ||
| + | uživatel může připojit. Tam je potřeba nově instalovaný korpus uvést. | ||
| + | |||
| + | Pokud má být instalovaný korpus defaultní, uvede se to v runm.pl (síťová | ||
| + | verze) nebo jako argument pro manateesrv v resource (lokální verze). | ||
| + | |||
| + | Přidávání uživatelů a rýpání v heslech je nejlépe provádět pomocí skriptu | ||
| + | chuser. | ||
| + | |||
| + | |||
| + | ==== 6. Připojení z Bonita ==== | ||
| + | |||
| + | Zatím se zdá, že k verzi Manatee 1.49 se lze připojit jakýmkoliv Bonitem (tedy | ||
| + | že zpětná kompatibilita je ze strany klienta zachována). Stará TCLková verze | ||
| + | vyžaduje TCL/TK na uživatelské mašině. Nová binárková verze zase vyžaduje | ||
| + | libstdc++, která je zastaralá a je ji potřeba doinstalovávat. | ||
| + | |||
| + | Pro síťové připojení je potřeba mít otevřený port 5016 popř. jiný, na který je | ||
| + | manatee na serveru nakonfigurován. Na straně Bonita se port specifikuje v | ||
| + | souboru resource jako " | ||
