This is an old revision of the document!
Table of Contents
Den otevřených dveří
Stránka pro sdílení know-how o prezentaci ÚFALu na Dnech otevřených dveří (a podobných akcích).
Poznámky pro budoucnost
- chce to sexy název, například “Jak funguje ChatGPT?”
- chceme zkusit mít stánek na chodbě ve 2. patře před kanclem a ne uvnitř kanclu
- chceme si pořídit velkou plyšovou lamu a mít ji na stánku 🦙
2023
DOD v listopadu 2023
Koordinuje Rudolf, viz kanál #dod na Slacku!
- stánek
- Rudolf Rosa, Patrícia Schmidtová, Zdeněk Kasner
- v ÚFALím kanclu N 231 🐬
- dema
- Generování poezie
- Buď přímo přes huggingface (ale tam se naráží na limity)
- Anebo na nějakém solu v terminálu, třebas takto: https://github.com/ufal/dod/blob/main/gpt-czech-poet-userfriendly.py
- Generování textu s hlasovým vstupem a výstupem
- Hlavní zábava: persony (odskrollovat níže a vybrat kliknutím na obrázek)
- Sčítání a odčítání word embeddings
- spuštění například:
srun -p cpu-troja,cpu-ms –mem=50G –cpus-per-task=8 –pty bash
cd /home/musil/lnet_work_musil/emb_ar
python3 emb_arithm.py syn9_w15_lemma.pkl –history ~/my_history_file.txt
- dobré příklady např.:
- pes - kost + myš
- vodka - Rusko + Česko
- Hitler - Německo + Rusko
- škola - učitel + lékař
- k vysvětlení např Tomášovy slajdy
- Detailnější pokyny od TM:
- Ve složce
/home/musil/lnet_work_musil/emb_ar
je skript emb_arithm.py , kterému se dá jako argument soubor s embeddingy v mém vlastním formátu. Načte to během pár desítek vteřin seznam embeddingů + ball tree, který dokáže efektivně hledat nejbližší sousedy v řádu nízkých jednotek sekund (v závistlosti na množství a velikosti embeddingů). - Potřebuje to numpy a sklearn a pro větší modely běžet aspoň na solu
- jsou tam k tomu různé české embeddingy, nejlíp se mi zatím osvědčil soubor
cnk_lemma_norm_embs_ar.pkl
, což jsou nějaké staré embeddingy na ČNK syn4, které mají dimenzi jenom 100; nové embeddingy na syn9 s větší dimenzí kupodivu nefungují tak pěkně - a taky si ten skript pamatuje historii (pohybuje se v ní normálně šipkou nahoru a dolu) a když mu dáte v –history nějaký file, tak si v něm bude historii udržovat i mezi běhy
- (což bych na DOD doporučil, můžeme pak z té historie vybrat nějaké zajímavé examples, co zájemci o studium vymyslí)
- ty embeddingy, které mají v názvu 'lemma' jsou na lemmatech, což mi přijde lepší, protože pak ve výstupu není opakované totéž v různých tvarech; ale zase se na nich nedají předvádět morfologické analogie
- mimochodem, ve výstupu vynechávám slova z promptu, kdyby se někdo třeba divil, jaktože 'pes' není nejbližší sám sobě
- Generování divadelních her
- běží, mám dojem že je to nějak horší než to bývalo, ale těžko říct
- Generování příběhů
- generuje text i obrázky
- ale zatim to nemá hezkej vzhled, na tom teď pracuje kolega a buď to do úterka bude nebo ne
- Generování otisků duší
- To asi spíš ne? To se asi na MFF moc nehodí :slightly_smiling_face:
- letáčky
- PDF 2022: letacek_ufal_dod_2022_tisk.pdf
- nějaký asi pošle Iva, možná Zdeněk ještě upraví, vytiskneme si na Impaktu
- rollup – přinést z MS
- zkusí poslat Iva ve spolupráci se SISALem
- harmonogram
- 8:00 sraz (Rudolf, +Patricia?)
- 8:45 start
- 10:30 hlavní nápor
- 13:30 přichází Zdeněk
- 14:30 odchází Rudolf
- 16:00 konec (Zdeněk, +Patricia?)
- přednášky
- N1 OBojar 14:30-14:55 LLM: Od strojového překladu k řešení všech textových úloh světa
- N2 Rudolf 14:45-15:30 Více než jen ChatGPT: Principy a možnosti současných nástrojů umělé inteligence (přednáška pro fakultní školy, možná to není open for all, nevím)
JDIM v lednu 2023
- Dema
- THEaiTRE
- Generování scénářů divadelních her
- Rudolf
- DeriNet
- Slovotvorný les: jak se tvoří slova
- Lukáš + Jonáš
- ELITR
- Živý překlad mluvené řeči do 42 jazyků
- Dominik
- nápisy na polepení stánků: jdim_cedulky.odt
- letáčky viz DOD 2022, zbylé jsou zavřené ve skříni vedle věšáku v S 409
- přednáška: https://bit.ly/theaitre-jdim-2023
2022
Koordinuje Rudolf, viz kanál #dod na Slacku!
- Letáček od Zdeňka Kasnera:
- SVG: letacek_dod_svg.zip (konvertováno přes Inkscape z PDF + font)
- Asi 50 výtisků se nachází u Rudolfa v kanceláři N 235 🐙
- THEaiTRE:
- sestřih videozáznamu hry: https://youtu.be/apPLTXbuFkg
- Sčítání a odčítání slov:
- Tomášovo slajdy: http://tomasm.cz/slides/lmph/slides.pdf
- Tomášovo demo pomalé v Haskellu (loaduje se cca 20 minut):
/home/musil/scitani_slov
…scitani.sh
- Tomášovo demo rychlé v Pythonu (loaduje se minutu ale padá):
/home/musil/scitani_slov
…scitani.py cnk-slemma-100-15-normalized.txt
2021
!!! VŠECHNO JINAK, ASI TO BUDE DISTANČNĚ A STÁNEK NEBUDE !!!
- organizační !!! VŠECHNO JINAK, ASI TO BUDE DISTANČNĚ A STÁNEK NEBUDE !!!
- Koordinaci stánku má na starosti Ruda (formulář vyplnil)
- velkou přednášku bude mít Martin Popel (nahlášeno Vladanovi Majerechovi)
- v pondělí 22.11. kolem 16:00 je potřeba na Malé Straně předat věci k odvozu na Impakt (1-2 projektory, 2 prodlužovačky, HDMI kabely?)
- v úterý 23.11. je DOD, je potřeba mít někoho na stánku cca 8:00 – 17:00
- Rudolf tam bude, ale nezvládne tam být nonstop, potřebuju ještě 1-3 další dobrovolníky
- hardware !!! VŠECHNO JINAK, ASI TO BUDE DISTANČNĚ A STÁNEK NEBUDE !!!
- máme zamluvené 2 stoly, 3 zásuvky, 4 židle
- monitory vezmeme z kanclů na Impaktu; máme je připojené přes display port, ale mají i HDMI. Tomáš Musil má v šuplíčku jeden HDMI kabel.
- notebooky ÚFALí ze sekretariátu (a podle potřeby + vlastní)
- Projektor (1-2) dovézt z MS
- prodlužku (1-2) možná taky z MS
- dema !!! VŠECHNO JINAK, ASI TO BUDE DISTANČNĚ A STÁNEK NEBUDE !!!
- určitě chceme ukazovat THEaiTRE demo
- URL sem nedávám protože to ještě nechceme mít úplně veřejné
- a k tomu asi i pouštět ukázku té divadelní hry
- ODušek má Alex (česky, chcete jet z Anděla) a syntézu řeči (zvlášť, nečesky)
- asi ukazovat tu Alex
- Tomáš Musil snad připraví sčítání a odčítání slov (= embedinků)
- ukazovat CUBBITT překlad, ukazovat příklady kde Popel překládá líp než Google
- Martin zkusí něco připravit, s Googlem to není problém, s DeepL je to větší problém
- Sunit by mohl ukazovat eye tracking
- Peter Polák by taky mohl mít nějaké demo
- další materiály
- letáky?
- ještě něco?
- info o studiu u nás?
- Bc.: program Informatika, specializace Umělá inteligence, zaměření Zpracování přirozeného jazyka
- Mgr.: program Informatika - Jazykové technologie a počítačová lingvistika, 2 zaměření (počítačová a formální lingvistika; statistické metody a metody strojového učení pro zpracování jazyka)
- Ph.D.: program Computational linguistics / Matematická lingvistika
2018
stánek
- název: Počítačové zpracování přirozeného jazyka
- osazenstvo: Rudolf Rosa (7:30-15:30), Tomáš Musil (8:00-17:30), Dušan Variš (11:00-17:30), Tea Vojtěchová (8-17), Jonáš Kratochvíl (10-17?)
- leták
- PDF: dod-2018.pdf
- dema
- LSD demo
- překlad z angličtiny do češtiny, pozitivní/negativní recenze, popisování obrázku (ty recenze zdá se moc nefungujou; ty obrázky taky ne ale to je aspoň zábava)
- doprovodné slajdy k sentimentu: http://tomasm.cz/slides/lmph/slides.pdf#page=17
- vizualizace valence a arousal sprostarny.png
- Transformer demo (jen překlad): https://lindat.mff.cuni.cz/services/transformer/
- Embeddings (sčítání a odčítání slov) – to umí asi pustit jen Tomáš Musil na svém kompu
- doprovodné slajdy: http://tomasm.cz/slides/lmph/slides.pdf
- Bert (odpovídání na otázky): https://zilinec.me/bert/
- Ptakopět (vyplňování formuláře s překladačem): https://vilda.net/s/dod_ptakopet/
- NEZAVÍRAT BROWSER, UKLÁDÁ DATA DO LOCAL STORAGE (Vilda si to večer přijde sebrat)
- ASR (porozumí vám robot?)
-
-
- PER je position-independent error rate, tj. neco jako velikost pruniku (tokenu) deleno asi sjednocenim, nebo mozna referenci.
- WER je pocet editaci (tokenu coby atomickych jednotek) deleno asi delkou reference, nevim jiste.
- To “n” tam pisu, protoze uvadim 1-skore, cili cim vyssi, tim lepsi.
-
- know-how
- prodlužovačky má paní Brdičková v dostatečném počtu
- embedingy jsou cool, a je to zároveň dobrej starting point pro ukazování dalších věcí
- nebylo by špatný mít aspoň jedno demo offline, protože internet vypadává
2017
stánek
- název: Počítačové zpracování přirozeného jazyka (ÚFAL)
- osazenstvo: Rudolf Rosa, Tomáš Musil, Petra Barančíková, Dušan Variš
- dema:
- word embeddings od Tomáše Musila (/net/me/merkur3/musil/simplewiki/)
- receptron od Petry Barančíkové
- Modely jsou ulozeny na clusteru tu: /home/barancikova/WORK/recipes/recessential
- Poustim to tu pres ipython3 (potrebuje tensorflow a tflearn):
from train_model import * m, encoding, char_indices = load_model() m.make_recipe("Kachna na pomerančích", encoding,temperature=0.68)
- leták: upravený leták od Jindry Libovického (upravil Rudolf Rosa, v SVN zde: https://svn.ms.mff.cuni.cz/svn/phd_students/rosa/conferences/2017-11-23-DOD)
- ZIP se zdrojovými soubory (make.sh vygeneruje z SVG souborů PDF pro tisk; SVG používá Windowsí fonty, ale na ÚFALu jsou zdá se instalované i na Linuxech)
- zkušenosti:
- vyžádali jsme si jen jeden stůl a bylo to málo (už jen proto že nám tam nacpali spousta matfyzových letáků), příště vyžádat 2 stoly! (a 4 židle)
- je dobré se předem zajistit kabely k připojení notebooků k projektorům (naše projektory mají jen VGA, a kabel HDMI-VGA Milan Fučík nemá a nechce mít, ale půjčil nám ho Martin Mareš; microHDMI-VGA má doma Rudolf Rosa i Tomáš Musil)
- je dobré si vzít prodlužku
- je šikovné mít externí klávesnici, aby na ní mohli lidi psát (Rudolf Rosa má doma bezdrátovou)
- asi by bývalo bylo dobré mít u stánku nějak viditelně nápis s tím kdo jsme a co děláme a hlavně co to tam ukazujeme (měli jsme jen ÚFALí roll-up), to že tam v terminálu ukazujeme nějaký slova a texty není zdaleka samovysvětlující…
- předvádění aritmetických operací na word embeddings, když se dobře vysvětlí, tak lidem obvykle připadá zajímavé a pěkné /a těm ideálním kandidátům na budoucí ÚFALáky přímo fascinující)