Перехресна ентропія

У теорії інформації перехресна ентропія між двома розподілами ймовірності $p$ та $q$ над спільним простором подій вимірює середню кількість біт, необхідних для впізнання події з простору подій, якщо схема кодування, що використовується, базується на розподілі ймовірностей $q$ , замість «істинного» розподілу $p$ .

Визначення

Перехресна ентропія двох розподілів $p$ і $q$ на тому самому ймовірнісному просторі визначається наступним чином:

\mathrm {H} (p,q)=\mathrm {E} _{p}[-\log q]

.

Вираз можна переформулювати за допомогою $D_{\mathrm {KL} }(p||q)$ — дивергенції Кульбака — Лейблера від $q$ до $p$ (також відома як відносна ентропія $p$ відносно $q$ )

\mathrm {H} (p,q)=\mathrm {H} (p) D_{\mathrm {KL} }(p\|q)\!

,

де $H(p)$ — ентропія $p$ .

Для дискретного випадку $p$ і $q$ над одним і тим же носієм^[en] ${\mathcal {X}}$ це значить, що

$H(p,q)=-\sum _{x\in {\mathcal {X}}}p(x)\,\log q(x)$

(Рів. 1)

Для неперервного розподілу аналогічна ситуація. Ми припускаємо, що $p$ та $q$ абсолютно неперервні відносно деякої міри $r$ (зазвичай $r$ є мірою Лебега на борелевій σ-алгебрі). Нехай $P$ та $Q$ будуть функціями густини ймовірностей $p$ та $q$ відносно $r$ . Тоді

$H(p,q)=-\int _{\mathcal {X}}P(x)\,\log Q(x)\,dr(x)$

(Рів.2)

NB: Запис $\mathrm {H} (p,q)$ іноді використовується як для перехресної ентропії, так і для спільної ентропії $p$ і $q$ .

Мінімізація перехресної ентропії

Мінімізація перехресної ентропії часто використовується під час оптимізації та для оцінки імовірностей рідкісних випадків.

Застосування у машинному навчанні

У контексті машинного навчання перехресна ентропія — це міра похибки для задачі багатокласової класифікації^[en]. Зазвичай «істинний» розподіл (той, якому намагається відповідати алгоритм машинного навчання) виражається в термінах унітарного кодування.

Наприклад, припустимо, що для конкретного навчального екземпляра справжньою міткою є B з можливих міток A, B і C. Таким чином, унітарний розподіл для цього навчального екземпляра буде:

Pr(Class A)	Pr(Class B)	Pr(Class C)
0.0	1.0	0.0

Ми можемо інтерпретувати наведений вище істинний розподіл так, що навчальний екземпляр має 0% ймовірності бути класом A, 100% ймовірності бути класом B і 0% ймовірністю бути класом C.

Тепер припустимо, що алгоритм машинного навчання прогнозує такий розподіл ймовірностей:

Pr(Class A)	Pr(Class B)	Pr(Class C)
0.10	0.70	0.20

Наскільки близький прогнозований розподіл до справжнього? Саме це визначає перехресна ентропія, якщо її обрано як функцію втрати. Застосуємо формулу (Рів. 1):