Podklady pro hodnocení studentů a pracovníků ÚFAL (dříve: hodnocení pro účely získání titulu "docent" a "profesor" při habilitačním řízení v oboru I-3 Matematická lingvistika na Matematicko-fyzikální fakultě Univerzity Karlovy v Praze)
Praha, 22. 12. 2004
Tyto podklady se nyní používají pro každoroční hodnocení doktorandů a pracovníků ÚFAL. Z hlediska habilitačních a jmenovacích řízení jsou uvedeny pouze jako vodítko tam, kde předpis UK z roku 2008 nestanoví jinak (adaptováno a doplněno 20.12.2009)
Příloha se seznamy konferenčních publikací a časopisů v jednotlivých třídách doplněna 3. 5. 2009.
Motivace a všeobecná situace v oboru I-3
Obor I-3 “Matematická lingvistika” (Computational Linguistics) na MFF UK je koncipován jako interdisciplinární, s těžištěm v matematické informatice, avšak s podstatným přesahem do lingvistiky, matematiky a kognitivní vědy. Tento obor tedy sdílí řadu kritérií s dalšími obory matematické informatiky, avšak vzhledem k uvedeným přesahům je nutno tato kritéria modifikovat a doplnit. Podobně je nutno vzít v případě češtiny nebo jazyků jí blízkých na zřetel i jistou “národní” povahu tohoto výzkumu.
Metodika
Matematická lingvistika je vedle své čistě teoretické části - snad poněkud překvapivě - oborem převážně experimentální povahy, kterým se stala v posledních 15 letech. Dostupnost lingvisticky anotovaných dat a akceptace standardních vyhodnocovacích postupů objektivizovala výzkum v oblasti zpracování přirozeného jazyka (která je jednoznačně nejrozsáhlejší částí oboru). Patří sem budování morfologických, syntaktických a sémantických jazykových analyzátorů, slovníků pro jejich práci, systémů rozpoznávání a syntézy mluvené řeči, prozodie, zpracování diskurzu, vyhledávání dokumentů a informací, generování (syntéza) vět přirozeného jazyka a strojový překlad a řada dalších oblastí a aplikací. Bez vyhodnocení lingvistických experimentů (podle uznávané metodiky) se neobejde prakticky žádná publikace z této části oboru. V poslední době převažují pro tyto experimenty metody statistické (včetně automatického učení), neboť dávají nejlepší výsledky pro naprostou většinu zmíněných úloh, avšak výběr metody není při správném provedení a vyhodnocování experimentů nejpodstatnější, záleží na výsledné úspěšnosti. Oblast formalizace jazykového popisu a teoretického výzkumu v lingvistice (vč. teoreticko-kybernetických aspektů, např. otázek složitosti používaných algoritmů, vývoje nebo optimalizace statistických metod apod.) však není potlačena a je žádoucí, aby byla i nadále rozvíjena.
Výuka
V tomto interdisciplinárním oboru je obvyklé, že přednášky pro studenty v pregraduálním i postgraduálním studium se pořádají na různých fakultách i vysokých školách. Počty studentů díky tomuto charakteru výuky nebývají vždy velké, a jednu přednášku často navštěvují studenti několika fakult či vysokých škol. Po uchazečích je tedy nutno požadovat, aby jejich přednášky byly srozumitelné jak pro studenty s převážně matematicko-informatickým zázemím, tak i pro studenty s lingvistickým zázemím.
Publikační činnost
Publikační činnost v tomto oboru je vzhledem k jeho prudkému rozvoji zcela jednoznačně soustředěna především na několik hlavních konferencí oboru s celosvětovou audiencí. Tyto konference mají vyhraněně matematicko-lingvistické zaměření, případně zaměření na zpracování mluvené řeči. Téměř všechny jsou pořádány čtyřmi celosvětovými organizacemi, které v oboru působí: Association for Computational Linguistics (ACL), International Speech Communication Association (ISCA), International Committee of Computational Linguistics (ICCL), a Association for Machine Translation (AMTA/EAMT). Kromě ICCL všechny tyto organizace mají regionální strukturu (americkou, evropskou a případně asijskou sekci) a jejich “regionální” konference mají prakticky stejnou váhu a prestiž jako konference “celosvětové” (AMTA a EAMT takovou globální konferenci ani nepořádá). Všechny konference pořádané těmito organizacemi, včetně workshopů jejich zájmových sekcí (Special Interest Groups), jsou recenzovány mezinárodním programovým výborem a příspěvky se v drtivé většině případů recenzují “naslepo”, tj. bez znalosti jmen a pracovišť autorů pro zajištění větší objektivity. Procento příspěvků přijatých na tyto konference je obvykle 15 až max. 30 procent.
Za dostatečně kvalitní lze považovat i publikace na dalších konferencích řízených mezinárodními programovými výbory, kde procento přijatých příspěvků nestoupne nad 50 procent, jako je v našem regionu např. mezinárodní konference “Text, Speech, Dialogue”, pořádaná ZČU v Plzni společně s FI MU v Brně, SOFSEM (pro práce více informatického charakteru) nebo mezinárodní “Workshops on Parsing Technologies”, případně další. Pro publikace spíše teoreticko-lingvistického charakteru je sem však nutno zařadit i konference s mezinárodní účastí o českém jazyce, případně o dalších studovaných jazycích, jako jsou například každoroční seminář o gramatice pořádaný MU v Brně, Slovko v Bratislavě, workshopy “Formal Description of Slavic Languages” a další, a to i když nesplňují výše uvedené kritérium složení programového výboru a relativního počtu přijatých příspěvků. Na konferencích a workshopech, kde hlavním tématem je zpracování češtiny či slovenštiny, je rovněž přirozené publikovat česky. Seznam hlavních konferencí je uveden v Příloze spolu s jistou, byť pomocnou klasifikací jejich prestižnosti. Je nutno poznamenat, že sborníky některých z těchto konferencí jsou v celosvětových citačních indexech uvedeny s nenulovým “impact factorem”.Neplatí to však o všech. Pozvané přednášky na základě pozvání schváleného celým programovým výborem na uvedených konferencích, které jsou obvykle jen dvě až tři, jsou rovněž velmi důležitým ukazatelem prestiže a renomé daného uchazeče. Akce kongresového typu s přednesením krátkých nerecenzovaných a často i nepublikovaných příspěvků (nebo jen s publikací abstraktů) jsou v oboru spíše výjimkou a takové příspěvky o vědecké úrovni uchazeče nevypovídají. Po uchazeči je třeba požadovat, aby v nejkvalitnější kategorii uvedené v Příloze měl alespoň jednu, v případě profesorského řízení pak několik publikací.
Publikace v časopisech jsou rovněž žádoucí, ale v oboru Computational Linguistics se vzhledem k rychlému zastarávání vyhledávají spíše z formálních důvodů (jednotné měření kvality vědecké práce s důrazem na časopisy je v tomto oboru problematické i jinde ve světě). Neproblematické jsou pouze jednoznačně prestižní časopisy “Computational Linguistics”, vydávaný přímo ACL, a některé relevantní publikace IEEE (převážně pro příspěvky ke zpracování mluvené řeči). Pro příspěvky zabývající se zpracováním češtiny z takového hlediska, že je tématicky nelze publikovat v zahraničí, je nutno zohlednit i české časopisy, například Slovo a slovesnost a Naše řeč. Jedná se zde mj. i o službu české vědecké veřejnosti díky jejich dostupnosti v ČR. Seznam časopisů, které se svým recenzním postupem blíží sborníkům prestižních konferencí nebo je převyšují, je uveden v Příloze. Je pochopitelné, že případná publikace článku s oborovou tématikou v časopisech se širokým dopadem, jako jsou Science, Nature nebo prestižní matematické časopisy, by měla být hodnocena velmi vysoko, ale půjde spíše o velmi ojedinělé případy.
Přestože z výše uvedených důvodů mají publikace na konferencích vyšší vypovídací hodnotu o schopnostech uchazeče, v profesorském řízení by měl mít autorství nebo spoluautorství několika publikací v časopisech v prvních dvou kategoriích podle Přílohy a minimálně jednu v kategorii nejvyšší.
Velmi významná jsou ocenění typu “Best paper”, a to jak v časopisech (IEEE Transactions), tak zejména na konferencích. Tato ocenění, kterých je celosvětově v oboru ročně uděleno jen několik desítek či spíše jednotek, mají v komunitě velmi vysokou váhu.
Knihy a učebnice se považují za významnou složku publikační činnosti, avšak vzhledem k prudkému rozvoji oboru je nelze zejména v řízení pro udělení hodnosti docent vyžadovat bezpodmínečně, neboť v nich obvykle autoři shrnují mnohaletou zkušenost v oboru až poté, když se vývoj poznání ustálí.
Výzkumné zprávy dokreslují profil uchazeče; za důležitější z nich je pak možno považovat ty, kde uchazeč figuruje jako hlavní řešitel. Podobnou úlohu hrají i popularizační články, které lze ovšem považovat spíše za službu oboru.
Pro publikace informatického charakteru pak platí obdobným způsobem i to, co pro obor I-2 (softwarové inženýrství): za význačné publikace je nutno považovat i veřejně publikovaná (online nebo “klasickou” formou CD/DVD-ROM s přiděleným ISBN) softwarová díla, pokud je možno doložit šíři užití (tj. počet uživatelů, případně licence na nekomerční i komerční využití) odpovídající obecnosti (nebo naopak specifičnosti) takového díla. V oboru matematické lingvistiky prudce roste i cena lingvisticky anotovaných dat, která jsou dnes absolutně nezbytnou součástí matematicko-lingvistického výzkumu jako podklad pro další studium ve vědecké komunitě a jako zdroj dat pro strojové učení a statistické metody zpracování přirozeného jazyka (lze je přirovnat k chemickým či fyzikálním databankám naměřených vlastností prvků či sloučenin, bez nichž nelze experimentálně pracovat). Podíl na vytváření takových dat, pokud je u uchazeče podstatný, je rovněž velmi významným kladným příspěvkem k jeho profilu, opět (jako u softwarových děl) v závislosti na šíři jejich využití v rámci oboru.
Patenty jsou rovněž možným výsledkem vědecké práce, nicméně v tomto oboru se v akademické komunitě nevyužívají a často je vůbec i jejich podání spíše kontroverzní kvůli jejich omezující právní povaze (z hlediska přínosu vědecké obci). (Publikace pod obecně využitelnou licencí jako je např. GPL je samozřejmě nutno hodnotit jednoznačně příznivě.)
Všechny publikace z nejvyšších dvou kategorií Přílohy a soubory lingvistických dat a softwarových děl velkého rozsahu a užití (publikované libovolným způsobem) lze započítat do stanovených limitů podle příslušných předpisů UK.
Citační ohlas
Pro obor matematické lingvistiky neexistuje jednoznačný zdroj souhrnného seznamu citací. Nejblíže je index citeseer.nj.nec.com (pro Computer Science) a pak indexy SCI, v našem případě převážně pro “humanitní” část oboru. Je však třeba akceptovat i adekvátní seznam citací vytvořený uchazečem, neboť řada významných konferenčních publikací ani z nejvýznamnější kategorie (viz Příloha) není např. v citeseer.nj.nec.com zohledněna.
Ocenění
Čestné doktoráty českých i zahraničních univerzit a významné domácí i mezinárodní ceny, pokud je uchazeč získá ještě před udělením titulu docent nebo profesor, svědčí zcela jistě v jeho prospěch.
Granty a projekty
Velmi důležitou složkou hodnocení uchazeče jsou granty a projekty, ve kterých uchazeč figuruje jako hlavní řešitel nebo spoluřešitel, a to včetně spravovaného objemu finančních prostředků. I když úspěšnost uchazeče v minulosti negarantuje budoucí výkon, lze předpokládat, že uchazeč bude později podobně úspěšný v získávání prostředků na vědu a výzkum.
Služba vědecké komunitě
Důležitým kritériem hodnocení vědecké práce a vysoce hodnocenou službou vědecké komunitě je i členství (případně předsednictví) v programových výborech výše uvedených konferencí a workshopů a přiměřeně i členství v organizačních výborech takových akcí. Podobně se kladně hodnotí i členství v redakčních radách oborových časopisů a práce recenzenta pro výše uvedené konference, stejně jako vypracování a přednesení tzv. tutoriálů na mezinárodních konferencích a mezinárodních letních školách.
Členství ve výkonných výborech mezinárodních oborových (vědeckých) organizací je rovněž kladně hodnoceno. Členství v mezinárodních (ale i vybraných českých) stálých výborech, obvykle časově limitované na jeden či dva roky, je oceněním prestiže a službou vědecké komunitě zároveň.
Podobně lze kladně hodnotit i redakční práci u rozsáhlých elektronických publikací (vč. redakční práce na výrobě, zveřejnění a údržbě webového prostoru rozsáhlejších projektů).
//__Dodatek - publikační a jiná činnost v doktorandském studiu__//
Ačkoli pro úspěšné absolvování doktorandského studia se striktně nevyžaduje určitý počet publikací (v zásadě stačí podle platných regulí jedna), výše uvedené kritéria je třeba adekvátně brát v úvahu i pro hodnocení práce doktorandů. Doporučuje se, aby alespoň jedna samostatná publikace doktoranda (příp. pouze s jeho školitelem či konzultantem) před podáním práce k obhajobě byla v nejvyšší kategorii podle Přílohy, nebo aby doktorand měl větší množství publikací (jako autor nebo spoluautor) v nejvyšších dvou kategoriích. Vedoucí doktorandů by měli své doktorandy v předstihu směrovat tak, aby tato podmínka mohla být včas splněna.