Перевірка статистичних гіпотез

(Перенаправлено з Критерій значущості)

Перевірка статистичних гіпотез — клас базових задач в математичній статистиці, що полягають у перевірці статистичних гіпотез на основі даних спостереження за процесом, який моделюється за допомогою множини випадкових величин.[1] Перевірка статистичних гіпотез є методом статистичного висновування.

Альтернативний метод перевірки статистичних гіпотез полягає у визначенні множини статистичних моделей, по одній для кожної гіпотези кандидата, після чого використовуються техніки відбору моделі, аби вибрати ту, яка підходить найбільше.[2] Найбільш загальні техніки відбору моделей основані на інформаційному критерії Акаіке або коефіцієнті Баєса.

Протилежністю такого аналізу вибірки може бути розвідувальний аналіз вибірки, який може не мати наперед визначених гіпотез.

Статистичні гіпотези не слід плутати із науковими гіпотезами. Наукові гіпотези прагнуть дати пояснення природним явищам, в той час як статистичні гіпотези зазвичай використовують для встановлення факту існування зв'язку (або його відсутність) між вибірками даних. Таким прикладом є методи медичного лікування, де статистична гіпотеза використовується як спроба ілюстрації, з мірою статистичної значимості, чи ліки діють краще за плацебо. Наукова гіпотеза потім шукатиме пояснення результатів, незалежно від результатів перевірки статистичної гіпотези.

Статистичні гіпотези

ред.

Визначення

ред.

Нехай у (статистичному) експерименті спостерігається реалізація   деякої випадкової величини  , розподіл   якої є невідомим повністю чи частково. Тоді будь-яке твердження, що стосується  , називається статистичною гіпотезою. Гіпотези розрізняються за видом припущень, що містяться в них:

  • Статистичну гіпотезу, що однозначно визначає розподіл  , тобто,  , де   якийсь конкретний закон, називають простою.
  • Статистична гіпотеза, що стверджує, що розподіл   належить до деякої сім'ї розподілів, тобто  , де   — сім'я розподілів, називається складною.

На практиці зазвичай потрібно перевірити якусь конкретну і, як правило, просту гіпотезу  . Таку гіпотезу прийнято називати нульовою. При цьому паралельно розглядається гіпотеза, що суперечить їй  , що називається конкуруючою або альтернативною[en].

Висунута гіпотеза потребує перевірки, яка здійснюється статистичними методами, тому гіпотезу називають статистичною. Для перевірки гіпотези використовують критерії, що дозволяють прийняти або спростувати гіпотезу.

В більшості випадків статистичні критерії засновані на випадковій вибірці   фіксованого об'єму   з розподілу  . У послідовному аналізі вибірка формується в ході самого експерименту і тому її об'єм є випадковою величиною.

Приклад

ред.

Нехай дано незалежну вибірку   з нормального розподілу, де   — невідомий параметр. Тоді  , де   — фіксована стала, є простою гіпотезою, а альтернативна до неї   — складною.

Визначення термінів

ред.

Наступні визначення термінів в основному взяті із тлумачень в книзі Леманна і Романо[3]:

Статистична гіпотеза
Твердження щодо параметрів, які описують сукупність (не вибірку).
Статистика
Значення розраховане із вибірки, що часто підсумовують вибірку з метою порівняння.
Проста гіпотеза
Будь-яка гіпотеза яка повністю визначає розподіл сукупності.
Складна гіпотеза
Будь-яка гіпотеза, яка не визначає розподіл сукупності повністю.
Нульова гіпотеза (H0)
Гіпотеза, що суперечить теоретичному припущенню, яке необхідно довести.
Успішні дані
Дані, які дозволяють досліднику відкинути нульову гіпотезу.
Альтернативна гіпотеза[en] (H1)
Гіпотеза (як правило складна) пов'язана із теорію, яку бажають підтвердити.
Статистична перевірка (випробування, тест)
Процедура, входами якої є вибірки, а результатом гіпотеза.
Область прийняття
Множина значень тестової статистики для яких не виходить відкинути нульову гіпотезу.
Область відкидання / Критична область
Множина значень тестової статистики, для яких нульова гіпотеза відкидається.
Критичне значення[en]
Порогове значення, яке розмежовує область прийняття і відкидання для тестової статистики.
Потужність випробування (1 − β)
Імовірність для випробування, що визначає правильність відкидання нульової гіпотези. Доповнення до хибнонегативної частоти, β. Потужність називається чутливістю в області біостатистики. («Ця перевірка є перевіркою на чутливість, оскільки результат є негативним, можна із упевненістю зробити висновок, що пацієнт не має цього стану.») Див. Чутливість і специфічність і Помилки першого і другого роду за більш вичерпними визначеннями.
Розмір[en] випробування
Для простої гіпотези це імовірність неправильного відкидання нульової гіпотези при випробуванні. Хибнопозитивна частота. Для складних гіпотез це супремум імовірності відкидання нульової гіпотези по всім випадках, які покриває нульова гіпотеза. В біостатистиці доповнення до хибнопозитивної частоти називається специфічністю. («Це є специфічною перевіркою, оскільки при позитивному результаті ми можемо з упевненістю зробити висновок, що пацієнт має цей стан.») Див. Чутливість і специфічність і Помилки першого і другого роду за більш вичерпними визначеннями.
Рівень значимості тесту (α)
Це верхня межа накладається на розмір випробування. Це значення, яке обирає статист перед тим як вивчити дані або обрати будь-який спосіб перевірки, який застосувати. Це максимальний показник помилкового відхилення H0, який дослідник готовий допустити. Перевірка H0 на рівні значимості α означає перевірку H0, при якій розмір випробування не перевищує α. В більшості випадків, використовують випробування розмір якого дорівнює рівню значимості.
p-значення
Ймовірність, припущення, що нульова гіпотеза є вірною, спостереження результату близького до такого екстремуму що відповідає статистиці тесту.
Статистична значимість тесту
попередник перевірки статистичних гіпотез. Результат експерименту вважався статистично значущим, якщо вибірка була достатньо несумісною із (нульовою) гіпотезою. Це по різному розглядали у загальному сенсі, прагматична евристика для встановлення значущості експериментальних результатів, конвенція, яка встановлювала порогове значення статистичного доведення або метод для отримання висновків із даних. Метод перевірки статистичних гіпотез додав цьому математичної суворості і філософську послідовність поняттю, зробивши альтернативну гіпотезу однозначною. Цей термін тепер використовується здебільшого для описання сучасної версії, яка тепер є частиною перевірки статистичних гіпотез.

Етапи перевірки статистичних гіпотез

ред.
  1. Формулювання основної гіпотези   і альтернативної гіпотези[en]  . Гіпотези повинні бути чітко формалізовані в математичних термінах.
  2. Задання достовірності  , що називається рівнем значущості і що відповідає помилкам першого роду, на якому надалі і буде зроблений висновок про правдивість гіпотези.
  3. Розрахунок статистики   критерію такий, що:
    • її величина залежить від початкової вибірки  ;
    • за її значенням можна зробити висновки про істинність гіпотези  ;
    • сама статистика   повинна підкорятися якомусь невідомому закону розподілу, так як сама   є випадковою в силу випадковості  .
  4. Побудова критичної області. З області значень   виділяємо підмножину   таких значень, за якими можна судити про суттєвість розбіжностей з припущенням. Її розмір вибирається таким чином, щоб виконувалась рівність  . Ця множина   і називається критичною областю.
  5. Висновок про істинність гіпотези. Спостережувані значення вибірки підставляються в статистику   і за попаданням (або непопаданням) у критичну область   виноситься ухвала про відкидання (або ухвалення) висунутої гіпотези  .

Види критичної області

ред.
  • Двобічна критична область визначається двома інтервалами  , де   знаходять з умов  .
  • Лівобічна критична область визначається інтервалом  , де   знаходять з умови  .
  • Правобічна критична область визначається інтервалом  , де   знаходять з умови  .

Приклади

ред.

Співвідношення статей народжуваних людей

ред.

Одне із найперших застосувань статистичної перевірки гіпотез присвячувалося дослідженню питання: чи є однаково імовірним народження чоловіків і жінок (як нульової гіпотези), яке вивчав Джон Арбутнот[en] в 1700-х роках[4], а згодом П'єр-Симон Лаплас (в 1770-х)[5].

Арбутнот дослідив записи про народження дітей в Лондоні від 1629 до 1710 (всього за 82 роки), і застосував критерій знаків[en], просту непараметризовану статистичну перевірку[en][6][7][8]. В кожному із досліджених років, кількість народжених хлопчиків, перевищувала кількість народжених дівчаток. Розглядаючи рівноймовірним народження більшої кількості чоловіків або більшої кількості жінок, імовірність спостережуваного результату складала 0.582, або близько 1 до 4,8360,0000,0000,0000,0000,0000; в сучасних термінах, це є p-значенням. Що є неймовірно малим, після чого Арбутнот зробив висновок, що це не є випадковістю, а божим провидінням: «Звідки випливає, що цим процесом керує Провидіння, а не Випадок (англ. From whence it follows, that it is Art, not Chance, that governs)». Кажучи більш сучасними термінами, він відкинув нульову гіпотезу щодо рівності шансів народження хлопчика чи дівчинки із рівнем значимості p = 1/282.

Лаплас дослідив статистику майже половини мільйона народжень. Статистика показала більшу кількість народжуваних хлопчиків ніж дівчаток[9][10]. Розрахувавши p-значення, він зробив висновок, що ця перевага у кількості є об'єктивним явищем, а не випадковістю[11].

Леді дегустує чай

ред.

В одному із відомих прикладів перевірки статистичної гіпотези під назвою Леді дегустує чай[12] доктор біології Маріель Брістол[en], яка працювала як і Рональд Фішер у Ротамстедській дослідній станції[en], стверджувала, що вона здатна визначити, як було приготовано чай з молоком, а саме, спочатку налили у філіжанку чай або молоко. Фішер запропонував налити їй на пробу вісім філіжанок чаю у випадковому порядку, по чотири із кожним варіантом. Було поставлене питання, з якою імовірністю випадковим чином її відповідь буде вдалою. Нульова гіпотеза передбачала, що леді не має здатності відрізнити чай. Тест полягав у простому підрахунку кількість вдалих спроб із вибраних 4 чашок чаю. Критичним інтервалом був єдиний випадок із 4 вдалих вгадувань із 4 можливих, що базувався на традиційному критерії імовірності (< 5 %). Випадок із 4 вгадуваннями відповідає 1 із 70 можливих комбінацій (p ≈ 1,4 %). Фішер стверджував, що ніякої альтернативної гіпотези не потрібно. Леді вірно визначила кожну чашку[13], що вважалося статистично значимим результатом.

Судочинство

ред.

Процедуру статистичної перевірки можна порівняти із законами правосуддя; обвинувачений вважається невинним, доки його чи її вина не доведена. Прокурор намагається довести вину обвинуваченого. І лише тоді, коли доказів для обвинувачення буде достатньо, обвинувачений буде засуджений.

На початку процедури, існує дві гіпотези:   стверджує, що «обвинувачений є невинним», і   — «обвинувачений є винним». Перша гіпотеза —  , називається нульовою гіпотезою, і вона визнається на початковому етапі. Друга,  , називається альтернативною гіпотезою. Це та альтернативна гіпотеза, яку ми намагаємося довести або заперечити.

Гіпотеза про невинуватість буде відкинута лише тоді, коли помилка стане малоймовірною, оскільки небажано засуджувати невинного обвинувачуваного. Така помилка називається помилкою першого роду (тобто, засудження невинної особи), контролюють, аби ця помилка була невеликою. Наслідком такої асиметричної поведінки є більше поширення помилок другого роду (виправдання особи, яка вчинила злочин).

H0 вірна
Дійсно не винний
H1 вірна
Дійсно винний
Прийняття нульової гіпотези
Виправдання
Вірне рішення Невірне рішення
Помилка II роду
Відкидання нульової гіпотези
Засудження
Невірне рішення
Помилка I роду
Вірне рішення

Процес судочинства можна розглядати як один з двох або обидва процеси прийняття рішення: винний чи не винний, або докази проти непевності («за межею певного розумного сумніву»). З одного боку, оцінюється обвинувачений; з іншого боку оцінюється ефективність обвинувачення (вага винесених доказів). Перевірку статистичної гіпотези можна сприймати як присуд гіпотезі, або присуд доказам.

Філософські боби

ред.

Наступний приклад описувався філософом, який описував сімейство наукових методів до того, як перевірка гіпотез була формалізована і популяризована[14].

Замало бобів у цій жменьці є білими.
Більшість бобів із цієї торбинки є білими.
Тому: ймовірно, ці боби були взяті із іншої торбинки.
Це гіпотетичний висновок.

Боби у торбинці є генеральною сукупністю. Жменька бобів є вибіркою (зразком). Нульовою гіпотезою є припущення, що вибірка була взята із певної сукупності. Критерієм відхилення нульової гіпотези є «очевидна» різниця зовнішнього вигляду (неформальна відмінність у середньому). Цікавим є висновок із того, що розглядаючи реальну сукупність і реальну вибірку, було отримано висновок про уявну торбинку. Філософ скоріше міркував про логіку, а не ймовірність. Аби бути справжньою статистичною перевіркою гіпотези, цей приклад вимагає виконання формальностей із розрахунку ймовірності і порівняння отриманої імовірності із стандартною.

Просте узагальнення цього прикладу передбачає дослідження торбинки із перемішаними бобами і жменьки, яка містить або лише малу кількість, або дуже багато білих бобів. При узагальненні розглядають два екстремуми. Це вимагає більше розрахунків і більше порівнянь, аби дати формальну відповідь, але основна суть філософії залишається незмінною; якщо склад жменьки сильно відрізняється від складу торбинки, тоді, ймовірно, цю вибірку було отримано із іншої торбинки. Початковий оригінальний приклад називають односторонньою перевіркою, в той час як його узагальнення називається двосторонньою перевіркою.

Твердження також спирається на припущення, що вибірка була випадковою. Якщо хтось навмисно вишукував і вибирав із торбинки білі боби, тоді це б могло пояснити, чому у жменьці так багато білих бобів, а також пояснює чому кількість білих бобів у торбинці була вичерпана (хоча, також передбачається, що мішок повинен бути набагато більшим за одну жменю).

Див. також

ред.

Джерела

ред.

Примітки

ред.
  1. Stuart A., Ord K., Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference & the Linear Model (Arnold) § 20.2.
  2. Burnham, K. P.; Anderson, D. R. (2002). Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach (вид. 2nd). Springer-Verlag. ISBN 978-0-387-95364-9..
  3. Lehmann, E. L.; Romano, Joseph P. (2005). Testing Statistical Hypotheses (вид. 3E). New York: Springer. ISBN 978-0-387-98864-1.
  4. John Arbuthnot (1710). An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes (PDF). Philosophical Transactions of the Royal Society of London. 27 (325–336): 186—190. doi:10.1098/rstl.1710.0011.
  5. Brian, Éric; Jaisson, Marie (2007). Physico-Theology and Mathematics (1710–1794). The Descent of Human Sex Ratio at Birth. Springer Science & Business Media. с. 1–25. ISBN 978-1-4020-6036-6.
  6. Conover, W.J. (1999), Chapter 3.4: The Sign Test, Practical Nonparametric Statistics (вид. Third), Wiley, с. 157—176, ISBN 978-0-471-16068-7
  7. Sprent, P. (1989), Applied Nonparametric Statistical Methods (вид. Second), Chapman & Hall, ISBN [[Special:BookSources/978-0-412-44980-2 From whence it follows, that it is Art, not Chance, that governs.|978-0-412-44980-2 From whence it follows, that it is Art, not Chance, that governs.]] {{citation}}: Перевірте значення |isbn=: недійсний символ (довідка)
  8. Stigler, Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. с. 225–226. ISBN 978-0-67440341-3.
  9. Laplace, P. (1778). Mémoire sur les probabilités (PDF). Mémoires de l'Académie Royale des Sciences de Paris. 9: 227—332. Архів оригіналу (PDF) за 27 квітня 2015. Процитовано 21 лютого 2019.
  10. Laplace, P. (1778). Mémoire sur les probabilités (XIX, XX). Oeuvres complètes de Laplace. Т. 9. с. 429—438. {{cite book}}: Проігноровано |journal= (довідка)
  11. Stigler, Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge, Mass: Belknap Press of Harvard University Press. с. 134. ISBN 978-0-674-40340-6.
  12. Fisher, Sir Ronald A. (1956) [1935]. Mathematics of a Lady Tasting Tea. У James Roy Newman (ред.). The World of Mathematics, volume 3 [Design of Experiments]. Courier Dover Publications. ISBN 978-0-486-41151-4. Originally from Fisher's book Design of Experiments.
  13. Box, Joan Fisher (1978). R.A. Fisher, The Life of a Scientist. New York: Wiley. с. 134. ISBN 978-0-471-09300-8.
  14. C. S. Peirce (August 1878). Illustrations of the Logic of Science VI: Deduction, Induction, and Hypothesis. Popular Science Monthly. 13. Процитовано 30 березня 2012.