[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
dod [2023/11/20 12:58]
rosa [DOD v listopadu 2023]
dod [2023/11/20 18:36]
rosa [DOD v listopadu 2023]
Line 19: Line 19:
       * Generování textu s hlasovým vstupem a výstupem       * Generování textu s hlasovým vstupem a výstupem
         * https://quest.ms.mff.cuni.cz/nlg/text-generation-webui/         * https://quest.ms.mff.cuni.cz/nlg/text-generation-webui/
 +        * Hlavní zábava: persony (odskrollovat níže a vybrat kliknutím na obrázek)
       * Sčítání a odčítání word embeddings       * Sčítání a odčítání word embeddings
-        * ''ssh sol3; cd /home/musil/lnet_work_musil/emb_arpython3 emb_arithm.py cnk_lemma_norm_embs_ar.pkl --history ~/my_history_file.txt'' +        * spuštění například: 
-        * Ve složce ''/home/musil/lnet_work_musil/emb_ar'' je skript emb_arithm.py , kterému se dá jako argument soubor s embeddingy v mém vlastním formátu. Načte to během pár desítek vteřin seznam embeddingů + ball tree, který dokáže efektivně hledat nejbližší sousedy v řádu nízkých jednotek sekund (v závistlosti na množství a velikosti embeddingů). +          * ''srun -p cpu-troja,cpu-ms --mem=50G --cpus-per-task=8 --pty bash'' 
-        * Potřebuje to numpy a sklearn a pro větší modely běžet aspoň na solu +          * ''cd /home/musil/lnet_work_musil/emb_ar'' 
-        * jsou tam k tomu různé české embeddingy, nejlíp se mi zatím osvědčil soubor ''cnk_lemma_norm_embs_ar.pkl'', což jsou nějaké staré embeddingy na ČNK syn4, které mají dimenzi jenom 100; nové embeddingy na syn9 s větší dimenzí kupodivu nefungují tak pěkně +          * ''python3 emb_arithm.py syn9_w15_lemma.pkl --history ~/my_history_file.txt'' 
-        * a taky si ten skript pamatuje historii (pohybuje se v ní normálně šipkou nahoru a dolu) a když mu dáte v --history  nějaký file, tak si v něm bude historii udržovat i mezi běhy +        * dobré příklady např.: 
-        * (což bych na DOD doporučil, můžeme pak z té historie vybrat nějaké zajímavé examples, co zájemci o studium vymyslí) +          * pes - kost + myš 
-        * ty embeddingy, které mají v názvu 'lemma' jsou na lemmatech, což mi přijde lepší, protože pak ve výstupu není opakované totéž v různých tvarech; ale zase se na nich nedají předvádět morfologické analogie +          * vodka - Rusko + Česko 
-        * mimochodem, ve výstupu vynechávám slova z promptu, kdyby se někdo třeba divil, jaktože 'pes' není nejbližší sám sobě+          * Hitler - Německo + Rusko 
 +          * škola - učitel + lékař 
 +        * k vysvětlení např Tomášovy slajdy 
 +          * http://tomasm.cz/slides/lmph/slides.pdf 
 +        * Detailnější pokyny od TM: 
 +          * Ve složce ''/home/musil/lnet_work_musil/emb_ar'' je skript emb_arithm.py , kterému se dá jako argument soubor s embeddingy v mém vlastním formátu. Načte to během pár desítek vteřin seznam embeddingů + ball tree, který dokáže efektivně hledat nejbližší sousedy v řádu nízkých jednotek sekund (v závistlosti na množství a velikosti embeddingů). 
 +          * Potřebuje to numpy a sklearn a pro větší modely běžet aspoň na solu 
 +          * jsou tam k tomu různé české embeddingy, nejlíp se mi zatím osvědčil soubor ''cnk_lemma_norm_embs_ar.pkl'', což jsou nějaké staré embeddingy na ČNK syn4, které mají dimenzi jenom 100; nové embeddingy na syn9 s větší dimenzí kupodivu nefungují tak pěkně 
 +          * a taky si ten skript pamatuje historii (pohybuje se v ní normálně šipkou nahoru a dolu) a když mu dáte v --history  nějaký file, tak si v něm bude historii udržovat i mezi běhy 
 +          * (což bych na DOD doporučil, můžeme pak z té historie vybrat nějaké zajímavé examples, co zájemci o studium vymyslí) 
 +          * ty embeddingy, které mají v názvu 'lemma' jsou na lemmatech, což mi přijde lepší, protože pak ve výstupu není opakované totéž v různých tvarech; ale zase se na nich nedají předvádět morfologické analogie 
 +          * mimochodem, ve výstupu vynechávám slova z promptu, kdyby se někdo třeba divil, jaktože 'pes' není nejbližší sám sobě
       * Generování divadelních her       * Generování divadelních her
         * https://theaitre.com/demo         * https://theaitre.com/demo
-        * pokud ho rozběhnu+        * https://ufallab.ms.mff.cuni.cz/cgi-bin/rosa/theaitre-demo/demo.py 
 +        * běží, mám dojem že je to nějak horší než to bývalo, ale těžko říct
       * Generování příběhů       * Generování příběhů
         * https://ufal.mff.cuni.cz/AIvK/exponat/sekce/pribehy/         * https://ufal.mff.cuni.cz/AIvK/exponat/sekce/pribehy/

[ Back to the navigation ] [ Back to the content ]