[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
dod [2023/11/20 12:58]
rosa [DOD v listopadu 2023]
dod [2024/11/28 15:52] (current)
ufal [DOD v listopadu 2024]
Line 2: Line 2:
 Stránka pro sdílení know-how o prezentaci ÚFALu na Dnech otevřených dveří (a podobných akcích). Stránka pro sdílení know-how o prezentaci ÚFALu na Dnech otevřených dveří (a podobných akcích).
  
 +===== Poznámky pro budoucnost =====
 +
 +  * chce to sexy název, například "Jak funguje ChatGPT?"
 +  * chceme si pořídit velkou plyšovou lamu a mít ji na stánku :-) 🦙
 +
 +
 +===== 2024 =====
 +
 +==== DOD v listopadu 2024 ====
 +
 +Koordinuje Rudolf, viz kanál #dod na Slacku!
 +
 +* Navíc oproti loňsku
 +  * Elitr
 +    * https://docs.google.com/document/d/1wi9-7aznC75lkYWwMyqxcCLPRy7tXbET73krJ59mgJg/edit?usp=sharing
 +    * https://quest.ms.mff.cuni.cz/elitr/demo/
 +  * EduPo
 +    * https://quest.ms.mff.cuni.cz/edupo/ 
 +
 +Papír s názvy dem, možno vytisknout a dát na stánek, aby kolemjdoucí viděli, co všechno jim můžeme předvést: https://docs.google.com/document/d/1iRDX2YvOreqBc_KQ3Tl21Pxl6xgW-gQjXLTuWTQr8Is/edit?usp=sharing
 +
 +LLM tahák, který se dá vytisknout jako další materiál na stánek: ([[https://kasnerz.github.io/assets/materials/llm_tahak.pdf|PDF]], [[https://drive.google.com/file/d/1fQyZZV9BbISOc5UhhhnBw4W5NZZ5vofL/view?usp=drive_link|zdroj]])
 +
 +Vytištěné letáčky se dají použít i příští rok. Kopie by měly by být v N231 🐬
 +
 +Letos jsme měli poprvé stánek na chodbě ve 2. patře před kanclem a ne uvnitř kanclu. Fungovalo to o něco líp, ale chce to mít něco, co na první pohled přiláká lidi, když jdou okolo k robotům. Například Elitr fungoval dobře.
 ===== 2023 ===== ===== 2023 =====
  
Line 19: Line 45:
       * Generování textu s hlasovým vstupem a výstupem       * Generování textu s hlasovým vstupem a výstupem
         * https://quest.ms.mff.cuni.cz/nlg/text-generation-webui/         * https://quest.ms.mff.cuni.cz/nlg/text-generation-webui/
 +        * Hlavní zábava: persony (odskrollovat níže a vybrat kliknutím na obrázek)
       * Sčítání a odčítání word embeddings       * Sčítání a odčítání word embeddings
-        * ''ssh sol3; cd /home/musil/lnet_work_musil/emb_arpython3 emb_arithm.py cnk_lemma_norm_embs_ar.pkl --history ~/my_history_file.txt'' +        * spuštění například: 
-        * Ve složce ''/home/musil/lnet_work_musil/emb_ar'' je skript emb_arithm.py , kterému se dá jako argument soubor s embeddingy v mém vlastním formátu. Načte to během pár desítek vteřin seznam embeddingů + ball tree, který dokáže efektivně hledat nejbližší sousedy v řádu nízkých jednotek sekund (v závistlosti na množství a velikosti embeddingů). +          * <code>srun -p cpu-troja,cpu-ms --mem=50G --cpus-per-task=8 --pty bash</code> 
-        * Potřebuje to numpy a sklearn a pro větší modely běžet aspoň na solu +          * <code>cd /home/musil/lnet_work_musil/emb_ar</code> 
-        * jsou tam k tomu různé české embeddingy, nejlíp se mi zatím osvědčil soubor ''cnk_lemma_norm_embs_ar.pkl'', což jsou nějaké staré embeddingy na ČNK syn4, které mají dimenzi jenom 100; nové embeddingy na syn9 s větší dimenzí kupodivu nefungují tak pěkně +          * <code>python3 emb_arithm.py syn9_w15_lemma.pkl --history ~/my_history_file.txt</code> 
-        * a taky si ten skript pamatuje historii (pohybuje se v ní normálně šipkou nahoru a dolu) a když mu dáte v --history  nějaký file, tak si v něm bude historii udržovat i mezi běhy +        * dobré příklady např.: 
-        * (což bych na DOD doporučil, můžeme pak z té historie vybrat nějaké zajímavé examples, co zájemci o studium vymyslí) +          * pes - kost + myš 
-        * ty embeddingy, které mají v názvu 'lemma' jsou na lemmatech, což mi přijde lepší, protože pak ve výstupu není opakované totéž v různých tvarech; ale zase se na nich nedají předvádět morfologické analogie +          * vodka - Rusko + Česko 
-        * mimochodem, ve výstupu vynechávám slova z promptu, kdyby se někdo třeba divil, jaktože 'pes' není nejbližší sám sobě+          * Hitler - Německo + Rusko 
 +          * škola - učitel + lékař 
 +        * k vysvětlení např Tomášovy slajdy 
 +          * http://tomasm.cz/slides/lmph/slides.pdf 
 +        * Detailnější pokyny od TM: 
 +          * Ve složce ''/home/musil/lnet_work_musil/emb_ar'' je skript emb_arithm.py , kterému se dá jako argument soubor s embeddingy v mém vlastním formátu. Načte to během pár desítek vteřin seznam embeddingů + ball tree, který dokáže efektivně hledat nejbližší sousedy v řádu nízkých jednotek sekund (v závistlosti na množství a velikosti embeddingů). 
 +          * Potřebuje to numpy a sklearn a pro větší modely běžet aspoň na solu 
 +          * jsou tam k tomu různé české embeddingy, nejlíp se mi zatím osvědčil soubor ''cnk_lemma_norm_embs_ar.pkl'', což jsou nějaké staré embeddingy na ČNK syn4, které mají dimenzi jenom 100; nové embeddingy na syn9 s větší dimenzí kupodivu nefungují tak pěkně 
 +          * a taky si ten skript pamatuje historii (pohybuje se v ní normálně šipkou nahoru a dolu) a když mu dáte v --history  nějaký file, tak si v něm bude historii udržovat i mezi běhy 
 +          * (což bych na DOD doporučil, můžeme pak z té historie vybrat nějaké zajímavé examples, co zájemci o studium vymyslí) 
 +          * ty embeddingy, které mají v názvu 'lemma' jsou na lemmatech, což mi přijde lepší, protože pak ve výstupu není opakované totéž v různých tvarech; ale zase se na nich nedají předvádět morfologické analogie 
 +          * mimochodem, ve výstupu vynechávám slova z promptu, kdyby se někdo třeba divil, jaktože 'pes' není nejbližší sám sobě
       * Generování divadelních her       * Generování divadelních her
         * https://theaitre.com/demo         * https://theaitre.com/demo
-        * pokud ho rozběhnu+        * https://ufallab.ms.mff.cuni.cz/cgi-bin/rosa/theaitre-demo/demo.py 
 +        * běží, mám dojem že je to nějak horší než to bývalo, ale těžko říct
       * Generování příběhů       * Generování příběhů
         * https://ufal.mff.cuni.cz/AIvK/exponat/sekce/pribehy/         * https://ufal.mff.cuni.cz/AIvK/exponat/sekce/pribehy/

[ Back to the navigation ] [ Back to the content ]