This is an old revision of the document!
Poznámky k článku o Maximum Entropy LM
Definice entropie
Před čtením článku je dobré si připomenout základy ze Statistických metod:
- Mějme diskrétní prostor jevů X a dvě pravděpodobností rozdělení <latex>P, Q : X \rightarrow [0,1]</latex>. Pak
- Entropy <latex>H(P) = - \sum_{x \in X} P(x)\cdot \log_2 P(x)</latex>
- Cross-entropy <latex>H(P, Q) = - \sum_{x \in X} P(x) \cdot \log_2 Q(x)</latex>
- Kullback-Leibler divergence <latex>D_{KL}(P || Q) = \sum_{x \in X} P(x)\cdot\log_2(\frac{P(x)}{Q(x)})</latex>
Entropie je tedy definována primárně jako vlastnost pravděpodobnostního rozdělení. Pokud mluvíme o entropii jazyka, textu, korpusu apod., měli bychom vědět, jaké pravděpodobností rozdělení se pod takovouto entropií skrývá. Typicky se entropie korpusu/textu definuje jako entropie rozdělení P, které je odhadnuto z daného textu pomocí maximum likelihood odhadu. Typicky P předpovídá pravděpodobnost slova podmíněnou tzv. historií, tedy předchozími slovy.
Pro podmíněnou entropii a cross-entropii lze zavést definice (s trochu jiným značením):
- Nechť jsou X a Y dva diskrétní prostory jevů a P(X,Y) a Q(X,Y) pravděpodobnostní rozdělení jejich kartézského součinu. Marginální pravděpodobnost P(x|y) se klasicky odvodí z P(X,Y). Pak
- Conditional entropy <latex>H_{X|Y}(P) = - \sum_{x,y} P(x,y)\cdot\log_2(P(x|y))</latex>
- Conditional cross-entropy <latex>H_{X|Y}(P,Q) = - \sum_{x,y} P(x,y)\cdot\log_2(Q(x|y))</latex>
Značení se může lišit (<latex>H_{P,Q}(X|Y)</latex> místo <latex>H_{X|Y}(P,Q)</latex>), ale stále platí, že se jedná o veličinu charakterizující pravděpodobnostní rozdělení.
V praxi se entropie textu počítá jinak:
- Nechť text T je posloupnost slov <latex>T = w_1,\ldots w_{|T|}</latex>, jev <latex>x \in X</latex> představuje “aktuální slovo” <latex>w_i</latex> a jev <latex>y \in Y</latex> představuje “historii” <latex>y = w_1, \ldots w_{i-1}</latex>. Pak
- <latex>H_{X|Y}(T) =-\frac{1}{|T|}\cdot\sum_{i=1\ldots |T|}\log_2(P(y_i|x_i))</latex>
Definice mutual information
- pointwise mutual information <latex>pMI(x,y) = log \frac{P(x,y)}{P(x)P(y)}</latex>
- mutual information <latex>MI(X,Y) = E_{x \in X, y \in Y} pMI(x,y)</latex>
- average (pointwise) mutual information <latex>apMI(x,y) = P(x,y) log \frac{P(x,y)}{P(x)P(y)} + P(x,\bar{y}) log \frac{P(x,\bar{y})}{P(x)P(\bar{y})} + P(\bar{x},y) log \frac{P(\bar{x},y)}{P(\bar{x})P(y)} + P(\bar{x},\bar{y}) log \frac{P(\bar{x},\bar{y})}{P(\bar{x})P(\bar{y})}</latex>