[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
dod [2017/11/21 21:50]
rosa [stánek]
dod [2023/11/20 18:36]
rosa [DOD v listopadu 2023]
Line 1: Line 1:
 ====== Den otevřených dveří ====== ====== Den otevřených dveří ======
 +Stránka pro sdílení know-how o prezentaci ÚFALu na Dnech otevřených dveří (a podobných akcích).
 +
 +===== 2023 =====
 +
 +==== DOD v listopadu 2023 ====
 +
 +Koordinuje Rudolf, viz kanál #dod na Slacku!
 +
 +  * stánek
 +    * Rudolf Rosa, Patrícia Schmidtová, Zdeněk Kasner
 +    * v ÚFALím kanclu N 231 🐬
 +    * dema
 +      * Generování poezie
 +        * https://huggingface.co/jinymusim/gpt-czech-poet
 +        * Buď přímo přes huggingface (ale tam se naráží na limity)
 +        * Anebo na nějakém solu v terminálu, třebas takto: https://github.com/ufal/dod/blob/main/gpt-czech-poet-userfriendly.py
 +        * Povídání k tomu: https://docs.google.com/document/d/15Gd79Kdx70OavSctt7z7BK40v27F8PLWO40t5QJZlO0/edit?usp=sharing
 +      * Generování textu s hlasovým vstupem a výstupem
 +        * https://quest.ms.mff.cuni.cz/nlg/text-generation-webui/
 +        * Hlavní zábava: persony (odskrollovat níže a vybrat kliknutím na obrázek)
 +      * Sčítání a odčítání word embeddings
 +        * spuštění například:
 +          * ''srun -p cpu-troja,cpu-ms --mem=50G --cpus-per-task=8 --pty bash''
 +          * ''cd /home/musil/lnet_work_musil/emb_ar''
 +          * ''python3 emb_arithm.py syn9_w15_lemma.pkl --history ~/my_history_file.txt''
 +        * dobré příklady např.:
 +          * pes - kost + myš
 +          * vodka - Rusko + Česko
 +          * Hitler - Německo + Rusko
 +          * škola - učitel + lékař
 +        * k vysvětlení např Tomášovy slajdy
 +          * http://tomasm.cz/slides/lmph/slides.pdf
 +        * Detailnější pokyny od TM:
 +          * Ve složce ''/home/musil/lnet_work_musil/emb_ar'' je skript emb_arithm.py , kterému se dá jako argument soubor s embeddingy v mém vlastním formátu. Načte to během pár desítek vteřin seznam embeddingů + ball tree, který dokáže efektivně hledat nejbližší sousedy v řádu nízkých jednotek sekund (v závistlosti na množství a velikosti embeddingů).
 +          * Potřebuje to numpy a sklearn a pro větší modely běžet aspoň na solu
 +          * jsou tam k tomu různé české embeddingy, nejlíp se mi zatím osvědčil soubor ''cnk_lemma_norm_embs_ar.pkl'', což jsou nějaké staré embeddingy na ČNK syn4, které mají dimenzi jenom 100; nové embeddingy na syn9 s větší dimenzí kupodivu nefungují tak pěkně
 +          * a taky si ten skript pamatuje historii (pohybuje se v ní normálně šipkou nahoru a dolu) a když mu dáte v --history  nějaký file, tak si v něm bude historii udržovat i mezi běhy
 +          * (což bych na DOD doporučil, můžeme pak z té historie vybrat nějaké zajímavé examples, co zájemci o studium vymyslí)
 +          * ty embeddingy, které mají v názvu 'lemma' jsou na lemmatech, což mi přijde lepší, protože pak ve výstupu není opakované totéž v různých tvarech; ale zase se na nich nedají předvádět morfologické analogie
 +          * mimochodem, ve výstupu vynechávám slova z promptu, kdyby se někdo třeba divil, jaktože 'pes' není nejbližší sám sobě
 +      * Generování divadelních her
 +        * https://theaitre.com/demo
 +        * https://ufallab.ms.mff.cuni.cz/cgi-bin/rosa/theaitre-demo/demo.py
 +        * běží, mám dojem že je to nějak horší než to bývalo, ale těžko říct
 +      * Generování příběhů
 +        * https://ufal.mff.cuni.cz/AIvK/exponat/sekce/pribehy/
 +        * generuje text i obrázky
 +        * ale zatim to nemá hezkej vzhled, na tom teď pracuje kolega a buď to do úterka bude nebo ne
 +      * Generování otisků duší
 +        * https://bit.ly/clovek-duse-ai
 +        * To asi spíš ne? To se asi na MFF moc nehodí :slightly_smiling_face:
 +    * letáčky
 +      * Zdroj: https://www.canva.com/design/DAFQx44Q3_A/Auet77a9F4j6MGBsYOm13Q/edit
 +      * PDF 2022: {{ ::letacek_ufal_dod_2022_tisk.pdf |}}
 +      * nějaký asi pošle Iva, možná Zdeněk ještě upraví, vytiskneme si na Impaktu
 +    * rollup -- přinést z MS
 +      * zkusí poslat Iva ve spolupráci se SISALem
 +    * harmonogram
 +      * 8:00 sraz (Rudolf, +Patricia?)
 +      * 8:45 start
 +      * 10:30 hlavní nápor
 +      * 13:30 přichází Zdeněk
 +      * 14:30 odchází Rudolf
 +      * 16:00 konec (Zdeněk, +Patricia?)
 +  * přednášky
 +    * N1 OBojar 14:30-14:55 LLM: Od strojového překladu k řešení všech textových úloh světa
 +    * N2 Rudolf 14:45-15:30 Více než jen ChatGPT: Principy a možnosti současných nástrojů umělé inteligence (přednáška pro fakultní školy, možná to není open for all, nevím)
 +  * web MFF: https://www.mff.cuni.cz/cs/uchazeci/dny-otevrenych-dveri/2023
 +
 +==== JDIM v lednu 2023 ====
 +
 +  * Dema
 +    * THEaiTRE
 +      * Generování scénářů divadelních her
 +      * https://theaitre.com/demo
 +      * QR kód: {{::e8e712050ddacee1af8b140f8e38288a.png?200|}}
 +      * Rudolf
 +    * DeriNet
 +      * Slovotvorný les: jak se tvoří slova
 +      * https://lukyjanek.github.io/subpages/2023-jdim-demo-annotation/UDerAnnotation.html
 +      * Lukáš + Jonáš
 +    * ELITR
 +      * Živý překlad mluvené řeči do 42 jazyků
 +      * https://quest.ms.mff.cuni.cz/elitr/demo/
 +      * Dominik
 +  * nápisy na polepení stánků: {{ ::jdim_cedulky.odt |}}
 +  * letáčky viz DOD 2022, zbylé jsou zavřené ve skříni vedle věšáku v S 409
 +  * přednáška: https://bit.ly/theaitre-jdim-2023
 +
 +===== 2022 =====
 +
 +Koordinuje Rudolf, viz kanál #dod na Slacku!
 +
 +  * Letáček od Zdeňka Kasnera:
 +    * Zdroj: https://www.canva.com/design/DAFQx44Q3_A/Auet77a9F4j6MGBsYOm13Q/edit
 +    * PDF: {{ ::letacek_ufal_dod_2022_tisk.pdf |}}
 +    * SVG: {{ ::letacek_dod_svg.zip |}} (konvertováno přes Inkscape z PDF + font)
 +    * Asi 50 výtisků se nachází u Rudolfa v kanceláři N 235 🐙
 +  * THEaiTRE:
 +    * demo: https://theaitre.com/demo
 +    * letáček česky: https://docs.google.com/document/d/1RCzOS5RE8u6CERcEz_rxhsQ10TYCGh5qpy8Pj56HHrw/edit?usp=sharing
 +    * sestřih videozáznamu hry: https://youtu.be/apPLTXbuFkg
 +  * Sčítání a odčítání slov:
 +    * Tomášovo slajdy: http://tomasm.cz/slides/lmph/slides.pdf
 +    * Tomášovo demo pomalé v Haskellu (loaduje se cca 20 minut): ''/home/musil/scitani_slov'' ... ''scitani.sh''
 +    * Tomášovo demo rychlé v Pythonu (loaduje se minutu ale padá): ''/home/musil/scitani_slov'' ... ''scitani.py cnk-slemma-100-15-normalized.txt''
 +===== 2021 =====
 +
 +**!!! VŠECHNO JINAK, ASI TO BUDE DISTANČNĚ A STÁNEK NEBUDE !!!**
 +
 +  * organizační **!!! VŠECHNO JINAK, ASI TO BUDE DISTANČNĚ A STÁNEK NEBUDE !!!**
 +    * Koordinaci stánku má na starosti Ruda (formulář vyplnil)
 +    * velkou přednášku bude mít Martin Popel (nahlášeno Vladanovi Majerechovi)
 +    * v pondělí 22.11. kolem 16:00 je potřeba na Malé Straně předat věci k odvozu na Impakt (1-2 projektory, 2 prodlužovačky, HDMI kabely?)
 +    * v úterý 23.11. je DOD, je potřeba mít někoho na stánku cca 8:00 -- 17:00
 +      * Rudolf tam bude, ale nezvládne tam být nonstop, potřebuju ještě 1-3 další dobrovolníky
 +  * hardware **!!! VŠECHNO JINAK, ASI TO BUDE DISTANČNĚ A STÁNEK NEBUDE !!!**
 +    * máme zamluvené 2 stoly, 3 zásuvky, 4 židle
 +    * monitory vezmeme z kanclů na Impaktu; máme je připojené přes display port, ale mají i HDMI. Tomáš Musil má v šuplíčku jeden HDMI kabel.
 +    * notebooky ÚFALí ze sekretariátu (a podle potřeby + vlastní)
 +    * Projektor (1-2) dovézt z MS
 +    * prodlužku (1-2) možná taky z MS
 +  * dema **!!! VŠECHNO JINAK, ASI TO BUDE DISTANČNĚ A STÁNEK NEBUDE !!!**
 +    * určitě chceme ukazovat THEaiTRE demo
 +      * URL sem nedávám protože to ještě nechceme mít úplně veřejné
 +      * a k tomu asi i pouštět ukázku té divadelní hry
 +    * ODušek má Alex (česky, chcete jet z Anděla) a syntézu řeči (zvlášť, nečesky)
 +      * asi ukazovat tu Alex
 +    * Tomáš Musil snad připraví sčítání a odčítání slov (= embedinků)
 +    * ukazovat CUBBITT překlad, ukazovat příklady kde Popel překládá líp než Google
 +      * Martin zkusí něco připravit, s Googlem to není problém, s DeepL je to větší problém
 +    * Sunit by mohl ukazovat eye tracking
 +    * Peter Polák by taky mohl mít nějaké demo
 +  * další materiály
 +    * letáky?
 +    * ještě něco?
 +    * info o studiu u nás?
 +      * Bc.: program Informatika, specializace Umělá inteligence, zaměření Zpracování přirozeného jazyka
 +      * Mgr.: program Informatika - Jazykové technologie a počítačová lingvistika, 2 zaměření (počítačová a formální lingvistika; statistické metody a metody strojového učení pro zpracování jazyka)
 +      * Ph.D.: program Computational linguistics / Matematická lingvistika
 +
 +
 +===== 2018 =====
 +==== stánek ====
 +  * název: Počítačové zpracování přirozeného jazyka
 +  * osazenstvo: Rudolf Rosa (7:30-15:30), Tomáš Musil (8:00-17:30), Dušan Variš (11:00-17:30), Tea Vojtěchová (8-17), Jonáš Kratochvíl (10-17?)
 +  * leták
 +    * PDF: {{ :dod-2018.pdf |}}
 +    * SVN: https://svn.ms.mff.cuni.cz/svn/phd_students/rosa/conferences/2018-11-22-DOD
 +  * dema
 +    * LSD demo
 +      * překlad z angličtiny do češtiny, pozitivní/negativní recenze, popisování obrázku (ty recenze zdá se moc nefungujou; ty obrázky taky ne ale to je aspoň zábava)
 +      * http://quest.ms.mff.cuni.cz/neuralmonkey-czm/
 +      * doprovodné slajdy k sentimentu: http://tomasm.cz/slides/lmph/slides.pdf#page=17
 +      * vizualizace valence a arousal {{:sprostarny.png?linkonly|}}
 +      * Transformer demo (jen překlad): https://lindat.mff.cuni.cz/services/transformer/
 +    * Embeddings (sčítání a odčítání slov) -- to umí asi pustit jen Tomáš Musil na svém kompu
 +      * doprovodné slajdy: http://tomasm.cz/slides/lmph/slides.pdf
 +    * Bert (odpovídání na otázky): https://zilinec.me/bert/
 +    * Ptakopět (vyplňování formuláře s překladačem): https://vilda.net/s/dod_ptakopet/
 +      * NEZAVÍRAT BROWSER, UKLÁDÁ DATA DO LOCAL STORAGE (Vilda si to večer přijde sebrat)
 +    * ASR (porozumí vám robot?)
 +      * česky: https://docs.google.com/document/d/1bYOsPfxu-ZwUHYmDoWQ9jEMyw1t7zySPOKL8dawcboM/edit#heading=h.5mp58sbojq3j
 +        * vyhodnocení: http://ufallab.ms.mff.cuni.cz/~bojar/asr-clearvoice/evalcze.html
 +      * anglicky: https://docs.google.com/document/d/1yd3hcYYh5zO3wT9Dv3gAIgmTxRgZV7Ky50A9fPeZ6GA/edit#heading=h.5siguct6qfs9
 +        * vyhodnocení: http://ufallab.ms.mff.cuni.cz/~bojar/asr-clearvoice/evaleng
 +        * PER je position-independent error rate, tj. neco jako velikost pruniku (tokenu) deleno asi sjednocenim, nebo mozna referenci.
 +        * WER je pocet editaci (tokenu coby atomickych jednotek) deleno asi delkou reference, nevim jiste.
 +        * To "n" tam pisu, protoze uvadim 1-skore, cili cim vyssi, tim lepsi.
 +  * know-how
 +    * prodlužovačky má paní Brdičková v dostatečném počtu
 +    * embedingy jsou cool, a je to zároveň dobrej starting point pro ukazování dalších věcí
 +    * nebylo by špatný mít aspoň jedno demo offline, protože internet vypadává
  
 ===== 2017 ===== ===== 2017 =====
Line 8: Line 181:
     * word embeddings od Tomáše Musila (/net/me/merkur3/musil/simplewiki/)     * word embeddings od Tomáše Musila (/net/me/merkur3/musil/simplewiki/)
     * receptron od Petry Barančíkové     * receptron od Petry Barančíkové
 +      * Modely jsou ulozeny na clusteru tu: /home/barancikova/WORK/recipes/recessential
 +      * Poustim to tu pres ipython3 (potrebuje tensorflow a tflearn):
 +
 +  from train_model import *
 +  m, encoding, char_indices = load_model()
 +  m.make_recipe("Kachna na pomerančích", encoding,temperature=0.68)
 +
   * leták: upravený leták od Jindry Libovického (upravil Rudolf Rosa, v SVN zde: https://svn.ms.mff.cuni.cz/svn/phd_students/rosa/conferences/2017-11-23-DOD)   * leták: upravený leták od Jindry Libovického (upravil Rudolf Rosa, v SVN zde: https://svn.ms.mff.cuni.cz/svn/phd_students/rosa/conferences/2017-11-23-DOD)
     * {{ :dod.pdf |PDF pro tisk}}     * {{ :dod.pdf |PDF pro tisk}}
     * {{ :dod-2017.zip |ZIP se zdrojovými soubory}} (make.sh vygeneruje z SVG souborů PDF pro tisk; SVG používá Windowsí fonty, ale na ÚFALu jsou zdá se instalované i na Linuxech)     * {{ :dod-2017.zip |ZIP se zdrojovými soubory}} (make.sh vygeneruje z SVG souborů PDF pro tisk; SVG používá Windowsí fonty, ale na ÚFALu jsou zdá se instalované i na Linuxech)
 +  * zkušenosti:
 +    * vyžádali jsme si jen jeden stůl a bylo to málo (už jen proto že nám tam nacpali spousta matfyzových letáků), příště vyžádat 2 stoly! (a 4 židle)
 +    * je dobré se předem zajistit kabely k připojení notebooků k projektorům (naše projektory mají jen VGA, a kabel HDMI-VGA Milan Fučík nemá a nechce mít, ale půjčil nám ho Martin Mareš; microHDMI-VGA má doma Rudolf Rosa i Tomáš Musil)
 +    * je dobré si vzít prodlužku
 +    * je šikovné mít externí klávesnici, aby na ní mohli lidi psát (Rudolf Rosa má doma bezdrátovou)
 +    * asi by bývalo bylo dobré mít u stánku nějak viditelně nápis s tím kdo jsme a co děláme a hlavně co to tam ukazujeme (měli jsme jen ÚFALí roll-up), to že tam v terminálu ukazujeme nějaký slova a texty není zdaleka samovysvětlující...
 +    * předvádění aritmetických operací na word embeddings, když se dobře vysvětlí, tak lidem obvykle připadá zajímavé a pěkné /a těm ideálním kandidátům na budoucí ÚFALáky přímo fascinující)
  

[ Back to the navigation ] [ Back to the content ]