Роздрібнена множина
Поняття роздрі́бнених множи́н (англ. shattered sets) відіграє важливу роль в теорії Вапника — Червоненкіса, відомій також як ВЧ-теорія. Роздрібнювання та ВЧ-теорія використовуються в дослідженні емпіричних процесів[en], а також у статистичній теорії обчислювального навчання[en].
Припустімо, що A є множиною, а C — класом множин. Клас C роздрі́бнює множину A, якщо для кожної підмножини a множини A існує такий елемент c класу C, що
Рівнозначно, C роздрібнює A, якщо булеан P(A) = { c ∩ A | c ∈ C }.
Ми застосовуємо літеру C для позначення «класу» (англ. class) або «набору» (англ. collection) множин, як у класі Вапника — Червоненкіса (ВЧ-клас). Множина A часто вважається скінченною, оскільки в емпіричних процесах нас цікавить роздрібнювання скінченних множин точок даних.
Ми покажемо, що клас усіх кругів на площині (у двовимірному просторі) не роздрібнює будь-яку множину з чотирьох точок на одиничному колі, але клас усіх опуклих множин на площині роздрібнює будь-яку скінченну множину точок на одиничному колі.
Нехай A є множиною з чотирьох точок на одиничному колі, а C є класом усіх кругів.
Щоби перевірити, чи C роздрібнює A, ми намагаємося намалювати круг навколо кожної з підмножин точок множини A. По-перше, ми малюємо круг навколо підмножин з кожної ізольованої точки. Потім ми намагаємося намалювати круг навколо кожної з підмножин із пар точок. Це виявляється здійсненним для сусідніх точок, але неможливим для точок на протилежних сторонах кола. Як унаочнено нижче:
-
Кожну окрему точку може бути ізольовано кругом (показано всі чотири).
-
Кожну з підмножин із сусідніх точок може бути ізольовано кругом (показано один із чотирьох).
-
Підмножину з точок на протилежних сторонах одиничного кола не може бути ізольовано кругом.
Оскільки існує підмножина, яку не може бути ізольовано жодним кругом із C, то ми робимо висновок, що A не роздрібнюється класом C. І, трохи поміркувавши, ми можемо довести, що жодна множина з чотирьох точок не роздрібнюється цим C.
Проте, якщо ми перевизначимо C як клас усіх еліпсів, ми виявимо, що ми все ще можемо ізолювати всі підмножини, як і вище, але також і точки, які раніше були проблемними. Таким чином, ця конкретна множина з 4 точок роздрібнюється класом еліпсів. Унаочнено нижче:
-
Протилежні точки A є тепер віддільними деяким еліпсом (показано один із двох)
-
Кожна з підмножин із трьох точок з A також є віддільною деяким еліпсом (показано один із чотирьох)
Трошки поміркувавши, ми можемо зробити узагальнення, що будь-яку множину скінченних точок на одиничному колі може бути роздрібнено класом усіх опуклих множин (унаочніть з'єднанням точок).
Для кількісної оцінки багатства набору множин C ми використовуємо поняття коефіцієнтів роздрібнювання (відомих також як коефіцієнти роздрібнення або функція росту, англ. shattering coefficients, shatter coefficients, growth function). Для набору C множин s⊂Ω, де Ω є будь-яким простором, часто ймовірнісним простором, а є будь-якою множиною з n точок, ми визначаємо n-тий коефіцієнт роздрібнювання набору C як
де позначає потужність множини.
— це найбільше число підмножин будь-якої множини A з n точок, які може бути сформовано перетином A з множинами з набору C.
Ось деякі факти про :
- для всіх n, оскільки для будь-якої .
- Якщо , то це означає, що існує множина потужності n, яку може бути роздрібнено набором C.
- Якщо для деякого , то для всіх .
Третя властивість означає, що якщо C не може роздрібнити будь-яку множину потужності N, то він не може роздрібнювати множини й вищих потужностей.
ВЧ-розмірність класу C визначається як
або, альтернативно, як
Зауважте, що
Якщо для будь-якого n існує множина потужності n, яку може бути роздрібнено класом C, то для всіх n, а ВЧ-розмірність цього класу C є нескінченною.
Клас зі скінченною ВЧ-розмірністю називається класом Вапника — Червоненкіса або ВЧ-класом. Клас C є рівномірно Гливенка — Кантеллі[en], якщо і лише якщо він є ВЧ-класом.
- Лема Зауера — Шелаха[en], яка ставить у відповідність потужність сімейства множин розмірові його найбільшої роздрібненої множини
- Wencour, R. S.; Dudley, R. M. (1981), Some special Vapnik–Chervonenkis classes, Discrete Mathematics, 33 (3): 313—318, doi:10.1016/0012-365X(81)90274-0 (англ.)
- Steele, J. M. (1975), Combinatorial Entropy and Uniform Limit Laws, Ph.D. thesis, Stanford University, Mathematics Department (англ.)
- Steele, J. M. (1978), Empirical discrepancies and subadditive processes, Annals of Probability, 6 (1): 118—227, doi:10.1214/aop/1176995615, JSTOR 2242865 (англ.)
- Походження термінології «роздрібнених множин» [Архівовано 25 березня 2017 у Wayback Machine.] від Джона Стіла[en] (англ.)