Перейти до вмісту

Метод групового урахування аргументів

Матеріал з Вікіпедії — вільної енциклопедії.

Метод групового урахування аргументів (МГУА) — сімейство індуктивних алгоритмів для математичного моделювання багатопараметричних даних. Метод заснований на селективному відборі моделей, на основі яких будуються складніші моделі. Точність моделювання на кожному наступному кроці збільшується за рахунок ускладнення моделі.

Цей метод був запропонований наприкінці 60-х — початку 70-х академіком Олексієм Григоровичем Івахненком (Інститут кібернетики НАНУ)[1][2].

Алгоритм

[ред. | ред. код]

Дано дані спостережень: . Необхідно побудувати найкращу в певному сенсі модель .

  1. Вибирається загальний вигляд моделей, що перебираються (так звані опорні функції). Часто використовують поліном Колмогорова — Габора:
    Вибір поліномів обумовлений тією властивістю, що згідно з теоремою Стоуна — Вейєрштрасса, будь-яку неперервну на скінченому інтервалі функцію можна з як завгодно високою точністю подати у вигляді полінома певного ступеня. Складність моделі в такому випадку визначається кількістю коефіцієнтів .
  2. Використовуючи опорні функції, будуються різні варіанти моделей для деяких або всіх аргументів. Наприклад будуються поліноми з однією змінною, поліноми з будь-якими парами змінних, поліноми з будь-якими трійками змінних, і т.д, поліном з усіма змінними. Для кожної моделі визначаються її коефіцієнти методом регресійного аналізу.
  3. Серед усіх моделей вибираються декілька (від 2 до 10) найкращих. Якість моделей визначається коефіцієнтом детермінації, або середньоквадратичним відхиленням помилки, або кореляцією Y і вихідних даних.
  4. Якщо знайдена досить «добра» модель або досягнута максимально допустима складність моделей, то алгоритм закінчується.
  5. Інакше, знайдені на 3-му кроці моделі використовуються як аргументи () для опорних функцій наступного етапу ітерації (перехід на 2-й пункт). Тобто, вже відібрані моделі беруть участь у формуванні складніших.

Зазвичай ступінь полінома опорної функції вибирається не вище , де  — кількість точок вибірки. Часто буває достатньо використовувати як опорні функції поліноми другого ступеня. У такому випадку на кожному кроці ітерації ступінь результуючого полінома подвоюється.

Замість полінома Колмогорова — Габора можна використовувати ряди Фур'є. Це має сенс, якщо у вихідних даних спостерігається періодичність (наприклад, рівень води в річках, температура повітря, обсяг опадів). Отримана в такому випадку модель буде полігармонічною [1][недоступне посилання з червня 2019].

Часто вихідну вибірку розбивають на дві підвибірки і . Підвибірка застосовується для визначення коефіцієнтів моделі, а підвибірка  — для визначення якості (коефіцієнта детермінації або середньоквадратичного відхилення). При цьому співвідношення кількості даних в обох вибірках може бути як 50 % / 50 %, так і 60 %/40%.

Статистика показує, що спочатку з кожним кроком ітерації середньоквадратичне відхилення зменшується. Але після досягнення певного рівня складності (яке залежить від характеру й кількості даних, а також загального вигляду моделі), середньоквадратичне відхилення починає зростати.

Складність оптимальної прогнозуючої моделі залежить від рівня невизначеності в даних: чим він вищий — тим простішою (грубішою) має бути оптимальна модель[1].

Див. також

[ред. | ред. код]

Джерела

[ред. | ред. код]
  1. а б Відділ інформаційних технологій індуктивного моделювання. Короткий огляд МГУА. Міжнародний науково - навчальний центр інформаційних технологій та систем НАН та МОН України. Архів оригіналу за 9 квітня 2022. Процитовано 5 травня 2022.
  2. Ivakhnenko, Alexey (1971). Polynomial theory of complex systems (PDF). IEEE Transactions on Systems, Man and Cybernetics. SMC-1 (4): 364—378. doi:10.1109/TSMC.1971.4308320. Архів оригіналу (PDF) за 29 серпня 2017. Процитовано 5 травня 2022.

Посилання

[ред. | ред. код]