[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

HamleDT 2.0 TO DO

22.4.2014: DZ: Prošel jsem všech 30 jazyků a dal jsem jejich pražskou normalizaci alespoň částečně do pořádku. Částečně znamená, že jsem vynuloval testy na AfunNotNR, FinalPunctuation a vše kolem nekonzistentních koordinací. Samozřejmě by to chtělo dál pracovat na Auxech, interpunkci a zbytečných neprojektivitách, ale to už se v této verzi nedá zvládnout. Máme tu další související úkoly a přinejmenším některé z nich mají podle mě teď vyšší prioritu:

Treebanks for Various Languages

http://ufal.mff.cuni.cz/hamledt/

To Process

Ahoj,
stáhl jsem nový španělský závislostní korpus IULA (větší než AnCora)
/net/projects/tectomt_shared/data/resources/treebanks/es

License: CC BY 3.0 (Unported)
Web: http://www.iula.upf.edu/recurs01_tbk_uk.htm
Doc: http://www.iula.upf.edu/recurs01_conll_uk.htm
Download: http://repositori.upf.edu/handle/10230/20048
Parsing: http://www.taln.upf.edu/system/files/biblio_files/ijcnlp_final_padro_et_al_2013.pdf

        state-of-the-art LAS score is 94.7 using Mate-C

sentences 42,000
tokens 590,000

The sentences have been choosed from the IULA LSP corpus, automatically annotated with POS information and manually annotated with syntactical information using the DELPH-IN environment. The resulting syntactic analysis is automatically converted to dependencies and delivered using the CONLL format.

Martin


[ Back to the navigation ] [ Back to the content ]