[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Poznámky k článku o Maximum Entropy LM

Ronald Rosenfeld: A Maximum Entropy Approach to Adaptive Statistical Language Modeling

Definice entropie

Před čtením článku je dobré si připomenout základy ze Statistických metod:

Entropie je tedy definována primárně jako vlastnost pravděpodobnostního rozdělení. Pokud mluvíme o entropii jazyka, textu, korpusu apod., měli bychom vědět, jaké pravděpodobností rozdělení se pod takovouto entropií skrývá. Typicky se entropie korpusu/textu definuje jako entropie rozdělení P, které je odhadnuto z daného textu pomocí maximum likelihood odhadu. Typicky P předpovídá pravděpodobnost slova podmíněnou tzv. historií, tedy předchozími slovy.

Pro podmíněnou entropii a podmíněnou cross-entropii lze zavést definice:

Značení se může lišit (<latex>H_{P,Q}(X|Y)</latex> místo <latex>H_{X|Y}(P,Q)</latex>), ale stále platí, že se jedná o veličinu charakterizující pravděpodobnostní rozdělení.

V praxi se entropie textu počítá jinak:

Celý tento úvod jsem psal, protože jsem se sám nejednou spletl, když jsem uvažoval o “entropii textu” (případně perplexitě), aniž bych si předem vyjasnil, o jakém pravděpodobnostním rozdělení vlastně uvažuju, jestli je to cross, či ne apod.

Definice variant mutual information

Platí, že

Vlastní poznámky


[ Back to the navigation ] [ Back to the content ]