Карактеристика слична Хар таласу
Карактеристика слична Хар таласу је карактеристика дигитална слике која се користе за откривање и препознавање објеката.[1]
Детекција објеката је једна од рачунарских технологија која је повезана са обрадом слике и рачунарским видом. Бави се откривањем инстанци објеката као што су људска лица, зграде, дрвеће, аутомобили, итд. Примарни циљ алгоритама за детекцију лица је да утврди да ли на слици постоји неки објекат или не.
У 19. веку, мађарски математичар, Алфред Хар, дао је концепте Хар таласa, који су низ рескалираних функција „у облику квадрата“ које заједно чине породицу таласа или основу. Детекција објеката коришћењем каскадних класификатора заснованих на Хар карактеристикама је ефикасан метод детекције објеката који су предложили Paul Viola и Michael Jones [1] у свом раду „Брза детекција објеката коришћењем појачане каскаде једноставних карактеристика“ из 2001. То је приступ заснован на машинском учењу где каскадна функција је обучена из мноштва позитивних и негативних слика. Затим се користи за откривање објеката на другим сликама. Хар каскада се не може користити за препознавање (на пример, људског лица) јер идентификује само одговарајући облик и величину.
Историјски гледано, рад само са интензитетима слике (тј. РГБ вредности пиксела на сваком пикселу слике) чинио је задатак израчунавања карактеристика рачунарски скупим.
Хар карактеристика су у суштини прорачуни који се изводе на суседним правоугаоним регионима на одређеној локацији у прозору за детекцију. Прорачун укључује сабирање интензитета пиксела у сваком региону и израчунавање разлика између збира. Ова разлика се затим користи за категоризацију подсекција слике. Коначни класификатор је пондерисани збир ових слабих класификатора. Назива се слабом јер сама не може да класификује слику, али заједно са осталима чини јак класификатор.
На пример, код људског лица, уобичајено је запажање да је међу свим лицима регион очију тамнији од предела образа. Стога је уобичајена Хар карактеристика за детекцију лица скуп два суседна правоугаоника који леже изнад ока и образа. Положај ових правоугаоника је дефинисан у односу на прозор за детекцију који се понаша као гранични оквир према циљном објекту (лице у овом случају).
Ове карактеристике може бити тешко одредити за велику слику. Овде долазе у обзир интегралне слике јер се број операција смањује коришћењем интегралне слике.
Прављење интегралних слика
Не улазећи превише у математику која стоји иза тога, интегралне слике у суштини убрзавају израчунавање ових Хар карактеристика. Уместо да рачуна на сваком пикселу, прави подправоугаонике и референце низа за сваки од тих подправоугаоника. Они се затим користе за израчунавање Хар карактеристика.
У фази детекције објеката Виола–Јонес, прозор циљне величине се помера преко улазне слике, а за сваки пододељак слике се израчунава карактеристика слична Хару. Ова разлика се затим упоређује са наученим прагом који одваја не-објекте од објеката. Пошто је таква карактеристика слична Хару само слаб ученик или класификатор (његов квалитет детекције је нешто бољи од случајног нагађања), велики број карактеристика сличних Хару је неопходан да би се објекат описао са довољном прецизношћу.
Слаби ученици се стварају померањем прозора преко улазне слике и израчунавањем Хар карактеристика за сваки пододељак слике. Ова разлика се упоређује са наученим прагом који одваја не-објекте од објеката. Пошто су ово „слаби класификатори“, потребан је велики број Хар-ових карактеристика да би прецизност формирала јак класификатор.
Стога су карактеристике слиичне Хару организоване у нешто што се зове каскада класификатора да формирају снажног ученика или класификатора.
Вредност карактеристике се израчунава као један број: збир вредности пиксела у црној области минус збир вредности пиксела у белој области. Вредност је нула за обичну површину у којој сви пиксели имају исту вредност, и стога не пружају корисне информације.
На примеру људских лица, која су сложених облика са тамнијим и светлијим тачкама, карактеристика слична Хару даје вам велики број када су области у црно-белим правоугаоницима веома различите. Користећи ову вредност, добијамо део валидне информације из слике.
Правоугаоне карактеристике налик Хару
[уреди | уреди извор]Интегрална слика (позната и као табела са сумираним површинама) је назив и структуре података и алгоритма који се користи за добијање ове структуре података. Користи се као брз и ефикасан начин за израчунавање збира вредности пиксела на слици или правоугаоном делу слике.
Кључна предност функције сличне Хару у односу на већину других функција је њена брзина израчунавања. Због употребе интегралних слика, карактеристика слична Хару било које величине може се израчунати у константном времену (приближно 60 микропроцесорских инструкција за карактеристику од 2 правоугаоника).
Једноставна правоугаона карактеристика слична Хару може се дефинисати као разлика збира пиксела површина унутар правоугаоника, која може бити на било којој позицији и размери унутар оригиналне слике. Овај модификовани скуп карактеристика се назива обележје са 2 правоугаоника . Виола и Јонес су такође дефинисали карактеристике са 3 правоугаоника и карактеристике са 4 правоугаоника. Вредности указују на одређене карактеристике одређене области слике. Сваки тип обележја може указивати на постојање (или одсуство) одређених карактеристика на слици, као што су ивице или промене у текстури. На пример, обележје са 2 правоугаоника може да укаже где се налази граница између тамног и светлог региона.
Важно је напоменути да ће скоро све Хар карактеристике бити ирелевантне приликом откривања објеката, јер су једине важне карактеристике објекта.
Брзо израчунавање карактеристика сличних Хару
[уреди | уреди извор]Израчунавање Хар карактеристика
Први корак је прикупљање карактеристика Хара. Хар карактеристика су у суштини прорачуни који се изводе на суседним правоугаоним регионима на одређеној локацији у прозору за детекцију. Прорачун укључује сабирање интензитета пиксела у сваком региону и израчунавање разлика између збира.
Један од доприноса Виоле и Џонса био је коришћење табела са сумираним површинама, [2] које су назвали интегралне слике . Интегралне слике се могу дефинисати као дводимензионалне табеле тражења у облику матрице са истом величином оригиналне слике. Сваки елемент интегралне слике садржи збир свих пиксела који се налазе у горњем левом делу оригиналне слике (у односу на позицију елемента). Ово омогућава да се израчуна збир правоугаоних површина на слици, на било којој позицији или скали, користећи само четири претраживања:
где редом тачке припадају интегралној слици, као што је приказано на слици.
Свака функција слична Хару може захтевати више од четири претраживања, у зависности од тога како је дефинисана. За функције са 2 правоугаоника Виоле и Џонса, потребно је шест тражења, за функције са 3 правоугаоника потребно је осам тражења, а за карактеристике са 4 правоугаоника је потребно девет тражења.
Нагнуте карактеристике Хара
[уреди | уреди извор]Каскадни класификатор се састоји од низа фаза, где је свака фаза скуп слабих ученика. Слаби ученици се обучавају коришћењем појачавања, што омогућава високо прецизан класификатор из средњег предвиђања свих слабих ученика.
На основу овог предвиђања, класификатор или одлучује да укаже да је објекат пронађен (позитивно) или пређе на следећи регион (негативно). Фазе су дизајниране да одбаце негативне узорке што је брже могуће, јер већина прозора не садржи ништа од интереса.
Важно је максимизирати ниску стопу лажно негативних, јер ће класификовање објекта као необјекта озбиљно нарушити ваш алгоритам детекције објеката.
На примеру детекције људских лица, посао каскаде је да брзо одбаци лица која нису лица и избегне губљење драгоценог времена и прорачуна. Тако се постиже брзина неопходна за детекцију лица у реалном времену.
Када подрегија слике уђе у каскаду, она се процењује у првој фази. Ако та фаза оцени подрегион као позитивну, што значи да мисли да је лице, резултат фазе је можда. Када подрегион добије можда, он се шаље у следећу фазу каскаде и процес се наставља као такав док не дођемо до последње фазе. Ако сви класификатори одобре слику, она се коначно класификује као људско лице и представља се кориснику као детекција.
Како нам то помаже да повећамо брзину? У суштини, ако прва фаза даје негативну оцену, онда се слика одмах одбацује јер не садржи људско лице. Ако прође прву фазу, али не прође другу фазу, такође се одбацује. У основи, слика се може одбацити у било којој фази класификатора.[4] [5] [6] [7] [8]
Линхарт и Мајт [3] увели су концепт нагнуте (45°) карактеристике сличне Хару. Ово је коришћено за повећање димензионалности скупа карактеристика у покушају да се побољша детекција објеката на сликама. Ово је било успешно, јер су неке од ових карактеристика у стању да опишу објекат на бољи начин. На пример, 2-правоугаона нагнута карактеристика слична Хару може указивати на постојање ивице под углом од 45°.
Референце
[уреди | уреди извор]- ^ а б Viola and Jones, "Rapid object detection using a boosted cascade of simple features", Computer Vision and Pattern Recognition, 2001
- ^ Crow, F, "Summed-area tables for texture mapping Архивирано 2017-08-08 на сајту Wayback Machine", in Proceedings of SIGGRAPH, 18(3):207–212, 1984
- ^ а б Lienhart, R. and Maydt, J., "An extended set of Haar-like features for rapid object detection Архивирано 2017-12-15 на сајту Wayback Machine", ICIP02, pp. I: 900–903, 2002
- ^ „viola-jones-algorithm”.
- ^ Lee, Socret (2021-08-11). „Understanding Face Detection with the Viola-Jones Object Detection Framework”. Medium (на језику: енглески). Приступљено 2024-02-15.
- ^ „OpenCV: Face Detection using Haar Cascades”. docs.opencv.org. Приступљено 2024-02-15.
- ^ Jaiswal, Abhishek (2022-10-19). „Face Detection using Haar-Cascade using Python”. Analytics Vidhya (на језику: енглески). Приступљено 2024-02-15.
- ^ Behera, Girija Shankar (2020-12-29). „Face Detection with Haar Cascade”. Medium (на језику: енглески). Приступљено 2024-02-15.