Дослідження методів вирішення проблеми незбалансованих даних

No Thumbnail Available

Date

2021

Journal Title

Journal ISSN

Volume Title

Publisher

СНУ ім. В. Даля

Abstract

У статті представлено дослідження методів вирішення проблеми незбалансованих даних. Рідкісні події призводять до проблеми незбалансованості даних, а саме незбалансованості кількості об'єктів в різних класах. Незбалансовані дані відносяться до набору даних, в якому один або декілька класів містять набагато більшу кількість прикладів, ніж інші. Незбалансовані дані можуть негативно вплинути на точність моделей і привести до отримання некоректних або помилкових результатів класифікації. Методи, спрямовані на вирішення проблеми незбалансованості даних, поділяють на три групи: методи рівня даних, методи рівня алгоритмів і ансамблеві методи. В статті представлена таксономія методів вирішення проблеми незбалансованості даних. До методів вирішення проблеми негативного впливу незбалансованості даних на результати класифікації на рівні даних віднесено дублювання об’єктів міноритарного класу, видалення об’єктів мажоритарного класу, гібридні методи. В якості методів на рівні алгоритмів, як найбільш широко поширені, визначають методи на основі алгоритму SVM, нейронних мереж та байєсовського алгоритму. Ансамблеві методи поділяють на методи на основі бустинг алгоритмів, ансамблеві методи на основі дублювання об’єктів міноритарного класу, ансамблеві методи на основі видалення об’єктів мажоритарного класу. Формалізовано явище незбалансованості даних. Представлено структури використання методів вирішення проблеми негативного впливу незбалансованості даних для кожного підходу. Представлено аналіз критеріїв оцінки результатів класифікації незбалансованих даних, що поділяються на критерії на основі номінальної оцінки, критерії на основі числової оцінки, критерії на основі ймовірності прогнозування. Проаналізовано переваги та недоліки розглянутих методів, спрямованих на вирішення проблеми незбалансованості даних та представлено результати цього аналізу. Визначено, що використання методів на рівні даних часто є кращим способом вирішення проблеми незбалансованих даних і, також, їх використання не виключає подальше використання інших методів на рівні алгоритмів або ансамблевих методів, для коректної оцінки результатів використання методів усунення негативного впливу незбалансованості, необхідно вибирати критерії оцінки, які дають краще розуміння того, наскільки добре метод і моделі справляються з поставленими цілями.

Description

Keywords

незбалансовані дані, класифікація, дублювання об'єктів міноритарного класу, видалення об'єктів мажоритарного класу

Citation

Дослідження методів вирішення проблеми незбалансованих даних / Білобородова Т. О., Коверга М. О., Петров П. О., Ломакін С. О., Критська Я. О. Наукові вісті Далівського університету. 2021. №21.