Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
draft [2009/07/15 12:29] ptacek |
draft [2009/09/30 18:25] ptacek |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Description | + | ====== |
- | The Czech version of Companion | + | Czech Companion |
- | photopal domena, nahranej korpus, ze na to sou dafy (reusing SHEFF DM intergrated through Inamode Relayer | + | taking advantage of the data collected in the first phase of the project (using a Wizard-of-Oz setting). The full recorded corpora was transcribed, manual speech reconstruction was done on 92.6% of utterances((still in progress)) and a pilot dialog acts annotation was performed on sample of 1000 sentences. |
- | typy odpovedi | + | |
- | NLP server s tectomt, ASR/TTS/SR client, connected over network | + | |
- | XXX JPta | + | |
- | advances | + | The architecture is the same as in the English version, i.e. a set of modules communicating through the Inamode |
- | pos ? analyzovat, generovat a kontrolovat ' | + | |
+ | The NLU pipeline, DM, and NLG modules at the NLP Server are implemented using a CU's own TectoMT platform that provides access to a single in-memory data representation through common API. This eliminates the overhead of repeated serialization and XML parsing that an Inamode based solution would impose otherwise. | ||
- | ===== Speech Reconstruction ===== | + | The Knowledge Base consists of objects (persons, events, |
- | features: omit filler phrases, irrelevant speech | + | |
- | imlementation(zahrnout tuhle info?): moses natrenovany na korpusu | + | |
- | performance indicator: BLEU score (overall scoring | + | |
- | XXX Mirek | + | |
- | ===== Morphology Analyzer and POS tagging ===== | ||
- | features: XXX Mirek/ | ||
- | performance indicator: accuracy | ||
- | ===== Syntactic Parsing | + | ====== Progress Report ====== |
- | features: induce dependencies and labels | + | |
- | performance indicator: f-measure | + | |
- | v tipu je natrenovat MacDonnalda na dialog datech, ten task je do M42, ted ne. | + | |
+ | [[Progress Report]] - dal jsem to na zvlastni stranku, abysme si nelezli do zeli | ||
- | ===== Semantic Parsing ===== | ||
- | features: meaning representation with semantic roles (69 labels), coordinations, | ||
- | performance indicator: f-measure | ||
- | ===== Information Extraction ===== | + | [[http:// |
- | features: template based identification of predicates | + | |
- | covering predicates from before-mentioned set of DAFs. | + | |
- | performance indicator: accuracy | + | |
- | ===== Named Entities Recognition | + | ====== Scenario Brief ====== |
- | features: detect person names, geographical locations (organizations jsou potreba?) | + | |
- | performance indicator: f-measure | + | |
- | ===== Dialog Act Tagging ===== | + | C1 Dobrý den, jak se jmenujete? (intro-daf-based) |
- | features: tagset derived from DAMSL-SWBD, DA is a key feature driving the decision, what to say next. | + | H1 Marie. |
- | performance indicator: accuracy | + | |
+ | C2 Těší mě. Já jsem Pavla a chtěla bych Vás blíž poznat. Jsem ráda, že mi ukážete Vaše fotografie. | ||
- | ===== Sentiment Analysis ===== | + | C2 Co je tohle? (photo_maintenance) |
- | features: za tohle bych vydaval klasifikator, | + | H2 To je moje rodina, rodiče, sestra, její manžel, moje dvě děti a její dvě děti. |
- | performance indicator: f-measure | + | H2 Byli u mě na Vánoce na návštěvě. |
+ | C3 Trávíte Vánoce takhle pohromadě? | ||
+ | H3 Teď už ne. | ||
+ | H3 Teď už všechny moje dětičky vylétaly z hnízda. | ||
- | ===== Complete System Evaluation ===== | + | C4 Jak se jmenuje váš manžel? |
- | T5.2.7 tohle zminuje, nick webb to pro nas asi neudela | + | H4 Manžel už nežije, jmenoval se Karel Šístek. |
- | performance indicator: pocet slov ve vypovedich uzivatele(? | + | |
+ | C5 Máte ráda Vánoce? | ||
+ | H5 Teď už ne. | ||
+ | H5 Měla jsem je ráda, když byly děti malé. | ||
+ | H5 Teď už to ale není ono. | ||
+ | C6 Takže teď trávíte Vánoce sama? (ask_on_detail-daf-based) | ||
+ | H6 Nejsem úplně sama, chodím každé Vánoce k dceři, ale už to není, jak to bývalo, když byly doma malé děti. | ||
+ | C7 Jak děti vyrostou, tak má člověk najednou příliš mnoho času. | ||
+ | C7 Kdo je kdo na té fotce? | ||
+ | H7 U stromečku je můj synovec, ta holčička vedle je moje dcera, chlapeček s hračkou je můj syn, vedle je sestra, její manžel a nad ním je můj otec. | ||
- | ===== Dialog Manager | + | C8 To jste ale velká rodina. |
- | features: reply types, using (language independed) predicates (prakticky | + | C8 Jak se jmenuje vaše sestra? (companion commenting last utterance |
- | performance indicator: rucni hodnoceni prijatelnosti vybrane akce | + | H8 Sestra se jmenuje Marie Havlová, její manžel je Vladimír, ten bohužel nedávno zemřel. |
+ | |||
+ | C9 To je smutné. | ||
+ | C9 Znala jste ho dobře? | ||
+ | H9 Velmi dobře, trávili jsme obě rodiny společně hodně času. | ||
+ | |||
+ | C10 Máte už nějaká vnoučata? | ||
+ | H10 Mám vnučku Natálku. | ||
+ | H10 Ona je takové živé děťátko, taková neposeda. | ||
+ | |||
+ | C11 Takže Natálka je neposeda. repeat-rephrase | ||
+ | C11 Máte ještě nějaké další vnučky nebo vnuky? | ||
+ | H11 Čekáme ještě další přírustek. | ||
+ | |||
+ | C12 Hlídáte je někdy? | ||
+ | H12 Hlídám dost často. | ||
+ | H12 Já mám děti ráda a jsem s nimi moc ráda. | ||
+ | |||
+ | C13 To je fajn. | ||
+ | C13 S dětmi je legrace. | ||
+ | H13 Ano. | ||
+ | |||
+ | C Podíváme se na další fotku? | ||
+ | |||
+ | ====== | ||
+ | |||
+ | C1 Dobrý den, jak se jmenujete? intro | ||
+ | H1 Jindra. | ||
+ | |||
+ | C2 Já jsem Pavla a budu si s Vámi povídat o Vašich fotkách. intro | ||
+ | C2 Hned se můžeme podívat na první. photo_maintenance | ||
+ | C2 Co je na téhle fotce? | ||
+ | H2 Tak to je moje dcerka Jana, když se narodila. Ta je druhá, staršího jsem měla chlapce Jirku. Jana měla nevyvinutý | ||
+ | |||
+ | C3 A dneska je z ní pěkná mladá slečna. komentující věta | ||
+ | C3 Kdy se Jana narodila ? ask_on_detail | ||
+ | H3 Jana se narodila v roce 1957. To už jsem neměla ani tatínka. | ||
+ | |||
+ | C4 To mě mrzí. hodnotící_obecná | ||
+ | H4 Tatínek zemřel v roce 1956 a Jana se potom narodila v červnu 1957. Dneska už je to máma od dvou dospělých děvčat. | ||
+ | |||
+ | C5 Kolik vnoučat vlastně máte? | ||
+ | H5 Vnoučat mám teďka pět, Jirka má dva kluky a nyní, na staré kolena, holčičku. | ||
+ | |||
+ | C6 A co vlastně dělá váš syn? ask_on_detail dafclovek_30, | ||
+ | H6 Můj syn je teďka v hospodě. | ||
+ | |||
+ | C7 Takže Jirka je nyní v hospodě? repeat_rephrase | ||
+ | H7 Na staré kolena, vždyť už je mu taky 52, si vzal na starost hospodu. | ||
+ | |||
+ | C8 To je ale šikovný. hodnotící_zacílená topic:člověk | ||
+ | C8 A kde pracuje Jana? skip_to_associated_topic daf: | ||
+ | H8 Je lékařka a dělá tady v Plzni. | ||
+ | H8 Je ředitelka v kojeneckém ústavu. | ||
+ | |||
+ | C9 Bydlí v Plzni? ask_on_detail daf: | ||
+ | H9 Ano, v Plzni. Jsou tady kousíček, na Klatovské třídě. | ||
+ | |||
+ | C10 Vzpomínáte si u téhle fotky ještě na něco? ask_for_more | ||
+ | H10 Už je to asi vše. | ||
+ | |||
+ | C Tak se podíváme na další snímek. | ||
+ | C Co na něm můžeme vidět? | ||
+ | |||
+ | |||
+ | ====== Scenario Brief 3 ====== | ||
+ | |||
+ | C1 Dobrý den Marie, už jsem se těšila | ||
+ | C1 Co na té první můžeme vidět? | ||
+ | | ||
+ | H1 To jsme byli prvně s novým autem na Šumavě. | ||
+ | |||
+ | H1 Sice trochu pršelo, ale na lyže se muselo. | ||
+ | |||
+ | |||
+ | C2 Jak často jste na Šumavu jezdili? | ||
+ | | ||
+ | H2 Dost, ne tak často, ale aspoň asi dvakrát, třikrát za zimu. | ||
+ | |||
+ | |||
+ | C3 Jezdili jste jenom na lyže? | ||
+ | | ||
+ | H3 Byli jsme se tam podívat na chaloupku pana Wericha a také jsme byli v kostele. | ||
+ | |||
+ | H3 Kostel byl plný lidu, což u nás ve Štěnovicích není. | ||
+ | |||
+ | |||
+ | C4 To je zajímavé. | ||
+ | | ||
+ | H4 Já jsem sice z Útušic, ale chodíme do kostela do Štěnovic. | ||
+ | |||
+ | H4 Spadáme tam jak k doktoru, tak i pod matriku. | ||
+ | |||
+ | |||
+ | C5 Rozumím. | ||
+ | | ||
+ | C5 Jezdili jste i na víc dní, nebo jen na jednodenní výlety? | ||
+ | | ||
+ | H5 S dětmi, když byly malé, to byly jednodenní výlety. | ||
+ | |||
+ | |||
+ | C6 Lyžujete ráda? | ||
+ | | ||
+ | H6 Lyžovala jsem, ale teď už vůbec ne, protože mám operované koleno i kyčel. | ||
+ | |||
+ | |||
+ | C7 Člověk už na sebe musí dávat víc pozor. | ||
+ | | ||
+ | C7 Máte to na Šumavu daleko? ask_on_detail daf:vylet | ||
+ | H7 Je to od nás z Útušic přes 30 kilometrů. | ||
+ | |||
+ | C8 Takže jste jezdili na Šumavu na lyže autem. | ||
+ | C8 Děti také baví lyžovat? skip_to_associated_topic | ||
+ | H8 Syn rád jezdí na běžkách. A dnes je moderní ten snowboard, tak to zkouší. | ||
+ | |||
+ | C9 To je šikovný. hodnotící_zacílená | ||
+ | C9 A dcera? ask_on_detail | ||
+ | H9 Ta moc nesportuje. | ||
+ | |||
+ | C Řeknete mi ještě něco k téhle fotce? ask_for_more | ||
+ | C A kdo je na téhle? photo_maintenance | ||
- | ===== Natural Language Generation ===== | ||
- | features: variations, underspecified input (dott format), emotional markup (natvrdo v dafech a templatech u hodnoticich vet) | ||
- | performance indicator: BLEU score |