Бінарна класифікація
Бінарна класифікація — клас задач класифікації елементів набору даних на дві групи на підставі правила класифікації[en].
Типові задачі бінарної класифікації:
- медичне тестування, яке дозволяє визначити, наявність або відсутність певного захворювання;
- технічні випробування[en] або контроль якості на виробництві на відповідність або невідповідність виробу вимогам специфікації[en];
- інформаційний пошук, за результатами якого приймається рішення про включення або невключення деякого інформаційного ресурсу в набір результатів пошуку. В цьому правило класифікації це релевантність пошуковому запиту або корисність для користувача.
Важливим моментом бінарної класифікації є те, що два класи звичайно не симетричні як за обсягом відмінних наборів даних з кожного класу, так і за наслідками помилкової класифікації. Наприклад, у медичному тестуванні варіативність даних про кров'яний тиск є значно меншою, ніж варіативність цих даних для хворих, а наслідком помилки класифікації стане призначення лікування здоровій людині або непризначення хворій.
Статистична бінарна класифікація
ред.Задача класифікації є предметом розгляду в машинному навчанні. Це задача керованого навчання — метод в якому категорії відомі, і задача полягає у визначенні цих категорій для нових спостережень. Коли таких категорій всього дві, то це статистична бінарна класифікація.
Для автоматизованого вирішення задач бінарної класифікації часто застосовують методи, як
- дерево рішень
- random forest
- баєсова мережа
- опорні вектори
- штучна нейронна мережа
- логістична регресія
- пробіт регресія[en]
Якість класифікатора залежить від предметної області та від кількості спостережень, розмірності вектора ознак, шуму в даних та багатьох інших факторів. Наприклад, random forest на хмарах 3D-точок працює краще, ніж метод опорних векторів.[1][2]
Оцінки бінарних класифікацій
ред.Існує багато метрик, які можна використовувати для вимірювання продуктивності класифікатора або якості прогнозу. Різні поля мають різні переваги для конкретних метрик, які відповідають різним цілям. Наприклад, в медицині часто використовуються чутливість і специфічність, в той час як при добуванні інформації вважають за краще влучність і повноту. Важливою відмінністю в метриках полягає в тому, чи є вона незалежної від поширеності (як часто кожна категорія зустрічається в популяції, англ. prevalence) і метрики, які залежать від поширеності обох типів також корисні, але вони дуже відрізняються властивостями.
Див. також
ред.Примітки
ред.Література
ред.- Nello Cristianini and John Shawe-Taylor. An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000. ISBN 0-521-78019-5 ([1] SVM Book)
- John Shawe-Taylor and Nello Cristianini. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004. ISBN 0-521-81397-2 ([2] [Архівовано 13 червня 2018 у Wayback Machine.] Kernel Methods Book)
- Bernhard Schölkopf and A. J. Smola: Learning with Kernels. MIT Press, Cambridge, Massachusetts, 2002. (Partly available on line: [3] [Архівовано 7 березня 2022 у Wayback Machine.].) ISBN 0-262-19475-9
В іншому мовному розділі є повніша стаття Binary classification(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою перекладу з англійської. (травень 2018)
|
Це незавершена стаття зі статистики. Ви можете допомогти проєкту, виправивши або дописавши її. |
Це незавершена стаття зі штучного інтелекту. Ви можете допомогти проєкту, виправивши або дописавши її. |