Differences

This shows you the differences between two versions of the page.

--- treex:api-implementation [2015/12/11 12:51]
popel
+++ treex:api-implementation [2015/12/11 13:34]
ufal
@@ Line 43: / Line 43: @@
 Zde je vidět, že Devel::Size::total_size hlásí 96MB, ale ps hlásí 292MB.
+==== Identifikátory ====
+V dosavadním Treexu byly identifikátory (uzlů) považovány za nevyhnutelnou režii a byly zpracovávány (generovány, indexovány) automaticky. Je otázka, jestli je to opravdu nutné za všech okolností, popř. jestli by to nešlo nějak zjednodušit, když víme, že valná část bloků identifikátory uzlů k ničemu nepotřebuje, navíc drtivá většina referencí je uzavřených uvnitř bundlu. Pokud se podaří sloučit a-stromy a t-stromy, velká část referencí odpadne, zbývající případy budou souviset asi hlavně s alignmentem a koreferencí.
+Nabízí se znovu zvážit:
+  - Jakých hodnot mají identifikátory nabývat
+  - Jak má být realizováno indexování identifikátorů
+) Hodnoty identifikátorů
+- atomické nebo strukturované (hierarchicky složením id dokumentu+bundlu+zóny+uzlu)?
+- pokud hierarchické, nedal by se přece jenom nějak využít ord? (jasně, pak by se muselo občas přepočítávat, otázka ale je, jak je v reálu vkládání uzlů časté)
+- v jakém scopu musí být id unikátní?
+) Indexování identifikátorů
+- zanášet do indexu automaticky jako nyní, nebo líně (při prvním využití), nebo ještě nějak jinak?
+- kde držet index (asi nadále mapu id-uzel)? U dokumentu jako teď, nebo u runneru?
 ==== Benchmark Perlích accessorů ====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences