Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
treex:api-implementation [2015/12/08 17:52] popel created |
treex:api-implementation [2015/12/11 11:14] popel |
||
---|---|---|---|
Line 9: | Line 9: | ||
(A pole milionu intů zabírá 32MB, což je stejně jako pole milionu referencí.) | (A pole milionu intů zabírá 32MB, což je stejně jako pole milionu referencí.) | ||
Přijde mi tedy výhodnější ukládat rovnou referenci na daný uzel (než int, který by se musel měnit, pokud bych přidal uzly na začátek věty). | Přijde mi tedy výhodnější ukládat rovnou referenci na daný uzel (než int, který by se musel měnit, pokud bych přidal uzly na začátek věty). | ||
+ | |||
+ | === Sdílení klíčů === | ||
+ | |||
+ | V Perlu a Pythonu jsou objekty implementovány jako hash table. Má-li třída Node atributy form, lemma,... a chceme milion uzlů, bylo by vhodné neukládat řetězce " | ||
+ | |||
+ | === Sdílení hodnot === | ||
+ | |||
+ | Mnoho uzlů má stejné lemma, formu, formém, tag atd. | ||
+ | Mohl bych tedy vytvořit slovník těchto stringů (mapující string na integerové idéčko a naopak) a do instancí uzlů ukládat místo stringů jen ta idéčka. | ||
+ | |||
+ | V Perlu zabírá string (o 0-15 jednobajtových znacích) 56 bajtů, ale když dám stringy do pole, tak se to zaokrouhlí na 64 bajtů. | ||
+ | Int zabírá 24 bajtů a v poli 32 bajtů. | ||
+ | Když dám stringy/ | ||
+ | |||
+ | perl -MDevel:: | ||
+ | perl -MDevel:: | ||
+ | perl -MDevel:: | ||
+ | |||
+ | Reference v Perlu zabírá stejně jako int (a to těch 24 bajtů samostatně, | ||
+ | (V céčku na 64bitech má typicky pointer 8 bajtů, int 4 bajty a long long int 8 bajtů, v poli to zůstává stejné, v hashi přibude režie dle míry naplnění tabulky, ale menší než v Perlu.) | ||
+ | Z hlediska rychlosti by bylo lepší ukládat přímo referenci na string (místo intu, kterým by se pak muselo indexovat pole). | ||
+ | Ušetřil bych 32 bajtů na každém stringovém atributu (a pokud by měl ten string víc než 15 znaků, tak ještě víc) a navíc bych potřeboval paměť pro slovník, která je ale (díky zipfovskému rozdělení lemmat, na větších dokumentech) zanedbatelná. | ||
+ | Mám-li v uzlu 4 stringové atributy (form, | ||
+ | |||
+ | Samozřejmě by bylo mnohem úspornější tyto datové struktury implementovat v Céčku a jen udělat binding pro Perl a Python. | ||
+ | |||
+ | Je dobré testovat i celkovou paměť virtuální i resident: | ||
+ | |||
+ | perl -MDevel:: | ||
+ | 96277560 | ||
+ | VSZ | ||
+ | 292780 271456 270416 | ||
+ | |||
+ | Zde je vidět, že Devel:: | ||
+ | |||
+ | ==== Benchmark Perlích accessorů ==== | ||
+ | Zápis i čtení | ||
+ | LV V::Magic H 64759/ | ||
+ | LV V::Magic A 74649/ | ||
+ | LV Sentinel H | ||
+ | LV Sentinel A | ||
+ | Moose 1155163/ | ||
+ | object H | ||
+ | object A | ||
+ | LV C:: | ||
+ | Mouse 3111529/ | ||
+ | LV C:: | ||
+ | C:: | ||
+ | Moops 3688969/ | ||
+ | Moo 3738065/ | ||
+ | O:: | ||
+ | C:: | ||
+ | hash | ||
+ | array 5386997/ | ||
+ | |||
+ | Zápis atributu | ||
+ | H-lv-check-sentinel | ||
+ | A-lv-check-sentinel | ||
+ | A-set-check-perl | ||
+ | H-set-check-perl | ||
+ | --- | ||
+ | H-set-lemma-perl | ||
+ | A-set-lemma-perl | ||
+ | A-lv-lemma-perl | ||
+ | H-lv-lemma-perl | ||
+ | --- | ||
+ | A-set-lemma-xs | ||
+ | H-set-lemma-xs | ||
+ | H-lv-lemma-xs | ||
+ | A-lv-lemma-xs | ||
+ | --- | ||
+ | H-direct | ||
+ | A-direct | ||
+ | |||
+ | Čtení atributu: | ||
+ | h-get_lemma_perl | ||
+ | a-get_lemma_perl | ||
+ | h-lv_lemma_perl | ||
+ | a-lv_lemma_perl | ||
+ | --- | ||
+ | h-lv_lemma_xs | ||
+ | a-lv_lemma_xs | ||
+ | h-get_lemma_xs | ||
+ | a-get_lemma_xs | ||
+ | --- | ||
+ | h-direct | ||
+ | a-direct | ||