[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision Both sides next revision
courses:rg:maxent-lm [2010/05/11 19:11]
popel vytvořeno
courses:rg:maxent-lm [2010/05/12 17:17]
popel
Line 26: Line 26:
     * <latex>H_{X|Y}(T) =-\frac{1}{|T|}\cdot\sum_{i=1\ldots |T|}\log_2(P(y_i|x_i))</latex>     * <latex>H_{X|Y}(T) =-\frac{1}{|T|}\cdot\sum_{i=1\ldots |T|}\log_2(P(y_i|x_i))</latex>
  
-=== Definice mutual information ===+=== Definice variant mutual information ===
  
-  * pointwise mutual information <latex>pMI(x,y) = log \frac{P(x,y)}{P(x)P(y)}</latex> +  * pointwise mutual information <latex>pMI(x,y) = log_2 \frac{P(x,y)}{P(x)P(y)}</latex> 
-  * mutual information <latex>MI(X,Y) = E_{x \in X, y \in Y} pMI(x,y)</latex> +  * mutual information <latex>MI(X,Y) = E_{x \in X, y \in Y} pMI(x,y) = \sum_{\in X, y \in Y} P(x,y)log_2 \frac{P(x,y)}{P(x)P(y)}</latex> 
-  * average (pointwise) mutual information <latex>apMI(x,y) = P(x,y) log \frac{P(x,y)}{P(x)P(y)} + P(x,\bar{y}log \frac{P(x,\bar{y})}{P(x)P(\bar{y})P(\bar{x},ylog \frac{P(\bar{x},y)}{P(\bar{x})P(y)} + P(\bar{x},\bar{y}) log \frac{P(\bar{x},\bar{y})}{P(\bar{x})P(\bar{y})}</latex>+  * average (pointwise) mutual information <latex>apMI(x,y) = \sum_{a \in \{x,\bar{x}\}, b \in \{y,\bar{y}\}} P(a,blog_2 \frac{P(a,b)}{P(a)P(b)}</latex> 
 + 
 +=== Vlastní poznámky === 
 + 
 +  * 1.2 "Using an ideal modelwhich capitalizes on every conceivable correlation in the language, L's cross entropy would equal its true entropy H." Zde se pod //true entropy// myslí podmíněná entropie (a to podmíněná vším možným), //ideal model// pak souvisí s pojmem [[http://en.wikipedia.org/wiki/Kolmogorov_complexity|Kolmogorov complexity]]. Nezaměňovat tedy s tím, když někdo pod pojmem //entropie// myslí nepodmíněnou entropii tak, jak se v 2.1 zavádí jako context-free estimation. 
 +  * O pár řádek níž se ve vzorečku cross-entropie používá dvakrát <latex>Pr_{PRIOR}</latex>, ovšem tato pravděpodobnost by měla být počítána pokaždé z jiných dat (train a heldout). 
 +  * Proč se v 2.5.2 používá k výběru trigger pairs právě míra apMI (v článku označovaná jako <latex>I(A_0:B)</latex>)? Proč se nepoužívá jen ten první ze čtyř sčítanců? Jaké to má důsledky/výhody, když se na konci 2.5.3 stejně píše, že negative triggers moc nepomáhají? Uvědomme si, že <latex>P(\bar{B}) P(B)</latex>, tedy že pokud chápeme apMI jako vážený průměr pMI pro <latex>(A_0,B),(A_0,\bar{B}),(\bar{A_0},B),(\bar{A_0},\bar{B})</latex>, tak největší váhu nemá <latex>(A_0,B)</latex>, ale <latex>(A_0,\bar{B})</latex> a <latex>(\bar{A_0},\bar{B})</latex>
 +  * Figure 2 na straně 6 svádí k domněnce, že sloupec 4-10 je vyšší než sloupec 3 právě proto, že je v něm nasčítáno sedm hodnot místo jedné. Nikoli, nejedná se o sčítání, ale o (vážené) průměrování. 
 +  * Při hodnocení užitečnosti různých trigger pairs je zajímavé si uvědomit hierarchii intrinsic/extrinsic hodnocení: apMI se používá k výběru trigger pairs, aby se dosáhlo nejlepších LM měřeno podle perplexity, což má vést k tomu, aby se dosáhlo nejlepších výsledků v ASR či MT měřeno podle WER či BLEU. Jaké jsou korelace mezi apMI-PPL či dokonce apMI-WER?

[ Back to the navigation ] [ Back to the content ]