Перехресна ентропія
Теорія інформації |
---|
У теорії інформації перехресна ентропія між двома розподілами ймовірності та над спільним простором подій вимірює середню кількість біт, необхідних для впізнання події з простору подій, якщо схема кодування, що використовується, базується на розподілі ймовірностей , замість «істинного» розподілу .
Перехресна ентропія двох розподілів і на тому самому ймовірнісному просторі визначається наступним чином:
- .
Вираз можна переформулювати за допомогою — дивергенції Кульбака — Лейблера від до (також відома як відносна ентропія відносно )
- ,
де — ентропія .
Для дискретного випадку і над одним і тим же носієм[en] це значить, що
|
|
( ) |
Для неперервного розподілу аналогічна ситуація. Ми припускаємо, що та абсолютно неперервні відносно деякої міри (зазвичай є мірою Лебега на борелевій σ-алгебрі). Нехай та будуть функціями густини ймовірностей та відносно . Тоді
|
|
( ) |
NB: Запис іноді використовується як для перехресної ентропії, так і для спільної ентропії і .
Мінімізація перехресної ентропії часто використовується під час оптимізації та для оцінки імовірностей рідкісних випадків.
У контексті машинного навчання перехресна ентропія — це міра похибки для задачі багатокласової класифікації[en]. Зазвичай «істинний» розподіл (той, якому намагається відповідати алгоритм машинного навчання) виражається в термінах унітарного кодування.
Наприклад, припустимо, що для конкретного навчального екземпляра справжньою міткою є B з можливих міток A, B і C. Таким чином, унітарний розподіл для цього навчального екземпляра буде:
Pr(Class A) | Pr(Class B) | Pr(Class C) |
---|---|---|
0.0 | 1.0 | 0.0 |
Ми можемо інтерпретувати наведений вище істинний розподіл так, що навчальний екземпляр має 0% ймовірності бути класом A, 100% ймовірності бути класом B і 0% ймовірністю бути класом C.
Тепер припустимо, що алгоритм машинного навчання прогнозує такий розподіл ймовірностей:
Pr(Class A) | Pr(Class B) | Pr(Class C) |
---|---|---|
0.10 | 0.70 | 0.20 |
Наскільки близький прогнозований розподіл до справжнього? Саме це визначає перехресна ентропія, якщо її обрано як функцію втрати. Застосуємо формулу (Рів. 1):
- Метод перехресної ентропії
- Інформаційна ентропія
- Умовна ентропія
- Метод максимальної правдоподібності
- Взаємна інформація
Ця стаття не містить посилань на джерела. (січень 2017) |
В іншому мовному розділі є повніша стаття Cross entropy(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою перекладу з англійської. (січень 2017)
|
Це незавершена стаття з інформатики. Ви можете допомогти проєкту, виправивши або дописавши її. |