Pireci Sejdiu, Nora and Ristevski, Blagoj (2024) ТЕХНИКИ ЗА МАШИНСКО УЧЕЊЕ И РЕСЕМПЛИРАЊЕ ЗА ПРЕДИКЦИЈА ОД НЕБАЛАНСИРАНИ МЕДИЦИНСКИ ПОДАТОЦИ. In: Конференција на докторски проекти, 28.09.2024, online.
|
Text
Macedonian Version-Doctoral Project_f.pdf Download (679kB) |
Abstract
Доминацијата на дијабетесот бара точни модели на предвидување, посебно кога се работи со множества податоци кои покажуваат небалансирана распределба на класите. Оваа студија ги истражува перформансите на два класификатори за машинско учење, XGBoost и Balanced Random Forest, комбинирано со две напредни техники за ресемплирање SMOTEtomek и ADASYN, за предвидување на дијабетес со користење на високо небалансирано множество податоци за здравствени индикатори за дијабетес. Множеството податоци, со сооднос на неизбалансираност на класите од приближно 6:1, постави предизвици во прецизното идентификување на малцинската класа (случаи со дијабетес). Целта на истражувањето беше да се евалуира како различните техники на ресемплирање и класификатори влијаат на перформансите на моделот во смисла на точност, прецизност, recall и F1-резултатот. Студијата користи четири различни конфигурации на модели: SMOTEtomek со XGBoost, SMOTEtomek со Balanced Random Forest, ADASYN со XGBoost и ADASYN со Balanced Random Forest. Резултатите покажаа дека моделот SMOTEtomek со Balanced Random Forest ги надмина сите други модели, постигнувајќи точност од 89,47% и F1-резултат од 0,91 за малцинската класа, ефикасно балансирајќи ја прецизноста и recall. Додека, XGBoost, и покрај неговата севкупна ефикасност, покажа слаба прецизност во предвидувањето на инстанците од малцинската класа, што доведе до повисока стапка на лажни позитивни инстанци (false positive). Студијата покажа дека комбинирањето на SMOTEtomek со Balanced Random Forest го нуди најробусното решение за предвидување дијабетес од небалансирани множества податоци . Идната работа ќе ја истражува примената на длабокото учење и невронските мрежи за понатамошно подобрување на перформансите на моделот, особено во препознавање на комплексни облици (patterns) во податоците поврзани со здравството.
Клучни зборови: XGBoost класификатор, Balanced Random Forest класификатор, SMOTETomek, ADASYN, небалансирани множества податоци.
| Item Type: | Conference or Workshop Item (Paper) |
|---|---|
| Subjects: | Scientific Fields (Frascati) > Natural sciences > Computer and information sciences Scientific Fields (Frascati) > Engineering and Technology > Electrical engineering, electronic engineering,information engineering |
| Divisions: | Faculty of Information and Communication Technologies |
| Depositing User: | Prof. d-r. Blagoj Ristevski |
| Date Deposited: | 19 Nov 2025 08:59 |
| Last Modified: | 19 Nov 2025 08:59 |
| URI: | https://eprints.uklo.edu.mk/id/eprint/11216 |
Actions (login required)
![]() |
View Item |
