====== Český Senior Companion ====== Návrh architektury: pilsen client - windows stroj s avatarem a kompletnim speech processingem prague server - linux stroj se Speech Reconstruction, tectomt (kandidat na hw: vista stroj, cos mi mirku nabizel?) komunikace nad HTTP, textove zpravy, pokud Plzen umi detekovat konec vety, tak i vetsi promluvy odesilat po vetach pro mozne 'skakani do reci' HW: co bude potreba, sezene MF (zajisti JH) ====== description of prototype ====== [[draft]] ====== Úkoly ====== * JPta: tectomt install, aby chodila ceska analyza - ala tred install pajas/projects/ppm/get_packages_tred * MS: fake pilsen client - text based * JPta: formát pro ukládání a dotazování nad kompletní historií jednoho uživatele pro test nekonfliktnosti navrhované odpovědi s historií * ZZ: serverove online zpracovani v tectomt * JPta: dokončení rewritu českého generování do tectomt * ?: Český wordnet ustrnulý ve verzi 1.5, anglická aktuální 3.0 (Eda Bejček má hands-on zkušenost) * ?: konverze jazykového vyjádření času ve výpovědích do dvojic (start timestamp, end timestamp) * ?: konverze referring expresions (v prvním přiblížení alespoň příbuzenské vztahy) na denotáty (Dan Zeman má [[https://svn.ms.mff.cuni.cz/projects/rodokmen|nějaký perlí kód k tématu]]) * ?: bohatší automatická analýza koreferencí * ?: DialogActs * JPta: hodnoty pro ohodnocení emocionální obsah výpovědí (z dialogů: to je smutné/legrace/pravda/pěkné) pro Silvii a ruční anotaci v našich dialozích ====== Zdroje ====== DAF editor, pro potrebu ukladani do xml verzovany [[https://svn.ms.mff.cuni.cz/projects/Companions|zde]] Dialogy z Plzně (transcriber format): **lepsi brat rucne rekonstruovane z pedtsc svn** [[http://ufal.mff.cuni.cz/~ptacek/sc-cz/speaker_028.xml|speaker_028.xml]] [[http://ufal.mff.cuni.cz/~ptacek/sc-cz/speaker_025.xml|speaker_025.xml]] [[http://ufal.mff.cuni.cz/~ptacek/sc-cz/speaker_030.xml|speaker_030.xml]] [[http://ufal.mff.cuni.cz/~ptacek/sc-cz/speaker_026.xml|speaker_026.xml]] [[http://ufal.mff.cuni.cz/~ptacek/sc-cz/speaker_029.xml|speaker_029.xml]] [[http://ufal.mff.cuni.cz/~ptacek/sc-cz/speaker_027.xml|speaker_027.xml]] Dialogy naše: **neni prepis vypovedi uzivatele** /a/merkur2/Companion/ Sheffield SC svn: http://jan:_mailnete_mi_@72.55.153.148/svn-sc/SeniorCompanions/DialogManager/trunk Teeside/Helsinky HFC svn: https://ptica:_mailnete_mi_@svn.cs.uta.fi/companions/ ====== Související komponenty ====== * Obri language model Vaska Novaka jako zdroj urcujici, na co ma smysl se uzivatele v danem kontextu ptat. * Pajas/Stepanek queries nad tecto/Oracle (mozno i nad PQSql, ale netrivialni vkladani dat, [[http://www.google.com/calendar/event?eid=b21naW5iZWxycjhna2Uyc3BnaWoxdWtnbm8gdWZhbC5rYWxlbmRhckBt&ctz=Europe/Prague|prilezitost k dotazovani ve stredu 3.12. 12:30 i s pizzou!]]) ====== Phase_II_Replanning ====== [[http://72.55.153.148/mediawiki-1.8.2/index.php/Phase_II_Replanning|original dokumentu na sheffield wiki]] U [[http://72.55.153.148/mediawiki-1.8.2/index.php/Phase_II_Replanning#Czech_analytical_parser_.28CU.29|Czech_analytical_parser]] je poznamka: Known issues: Slow for single sentence parsing JPta: inicializace je velmi dlouha (minuty), ale na jednu vetu je to pak pod 1s i s nejlepsim modelem U [[http://72.55.153.148/mediawiki-1.8.2/index.php/Phase_II_Replanning#Czech_TR_parser_.28CU.29|TR parser]] je Output: NE recognition module, JPta: NE rozpoznavani Jany Kravalove pracuje na m-rovine U [[http://72.55.153.148/mediawiki-1.8.2/index.php/Phase_II_Replanning#English_NLG_module_.28CU.29|en_NLG]] je plan: inclusion into GATE, JPta: GATE je v SC pouze na vstupni strane, pak uz je to vsechno stand alone java. btw kvuli tehle polozce mi pravdopodobe dnes pres skype psal Dan Charlton z University of Teesside, aby mi zas zopakoval, ze "so we are wanting to basically push to use our NLG system for english generation of more interesting sentences", ale souhlasil, ze v madridu mi ukaze vstup do toho jejich nlg, ze bych se to pokusil zkonvertovat do t-stromu. JPta: Popis architektury se mi zda dostatecne konzervativni. ====== bug fixing ====== Myslím že to byly velmi smutné vánoce protože to bylo to byly 1. Vánoce kdy manželka už musela. TMT-INFO: Applying block SxxN_to_SxxT::NE_to_T TMT-FATAL: ID not indexed: id="ScsT-s1-w14" PERL ERROR MESSAGE: Bad file descriptor PERL STACK: at /home/ufal/tmt/libs/core/TectoMT/Document.pm line 312 TectoMT::Document::get_node_by_id('TectoMT::Document=SCALAR(0x18168958)', 'ScsT-s1-w14') called at /home/ufal/tmt/libs/core/TectoMT/Document.pm line 309 TectoMT::Document::get_node_by_id('TectoMT::Document=SCALAR(0x18168958)', 'SCzechT-s1-w14') called at /home/ufal/tmt/libs/blocks/SxxN_to_SxxT/NE_to_T.pm line 25 SxxN_to_SxxT::NE_to_T::process_document('SxxN_to_SxxT::NE_to_T=SCALAR(0x18357188)', 'TectoMT::Document=SCALAR(0x18168958)') called at ./online_tectomt.pl line 358 main::get_dialog_response('HASH(0x18168b08)', 'Message=HASH(0xa30351f8)') called at ./online_tectomt.pl line 206