A missing data imputation method based on grey wolf algorithm for diabetes disease

Yükleniyor...
Küçük Resim

Tarih

2023

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Altınbaş Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

The bulk of medical databases contain coverage gaps due in large part to the expensive expense of some tests or human error in documenting these tests. Due to the absence of values for some features, the performance of the machine learning models is significantly impacted. Consequently, a specific category of techniques is necessary for the aim of imputing missing data. In this study, the Grey Wolf Algorithm (GWA) is used to generate and impute the missing values in the Pima Indian Diabetes Disease (PIDD) dataset. The proposed method is known as the Pima Indian Diabetes Disease (PIDD) Algorithm (IGW). The obtained results demonstrated that the classification performance of three distinct classifiers, namely the Support Vector Machine (SVM), the K-Nearest Neighbor (KNN), and the Naive Bayesian Classifier (NBC), was enhanced in comparison to the dataset prior to the application of the proposed method. In addition, the results indicated that IGW performed better than statistical imputation procedures such as removing samples with missing values, replacing them with zeros, mean, or random values.
Tıbbi veritabanlarının büyük kısmı, büyük ölçüde bazı testlerin pahalı masraflarından veya bu testlerin belgelenmesindeki insan hatasından dolayı kapsam boşlukları içermektedir. Bazı özellikler için değerlerin olmaması nedeniyle, makine öğrenimi modellerinin performansı önemli ölçüde etkilenir. Sonuç olarak, eksik verileri atamak amacıyla belirli bir teknik kategorisi gereklidir. Bu çalışmada, Pima Indian Diabetes Disease (PIDD) veri setindeki eksik değerleri oluşturmak ve hesaplamak için Gray Wolf Algoritması (GWA) kullanılmıştır. Önerilen yöntem Pima Hint Diyabet Hastalığı (PIDD) Algoritması (IGW) olarak bilinir. Elde edilen sonuçlar, Destek Vektör Makinesi (SVM), K-En Yakın Komşu (KNN) ve Naive Bayes Sınıflandırıcısı (NBC) olmak üzere üç farklı sınıflandırıcının sınıflandırma performansının önceki veri kümesine kıyasla arttığını göstermiştir. Önerilen yöntemin uygulanması. Ek olarak, sonuçlar IGW'nin istatistiksel olarak daha iyi performans gösterdiğini göstermiştir. eksik değerlere sahip örneklerin çıkarılması, sıfırlar, ortalama veya rastgele değerler ile değiştirilmesi gibi atama prosedürleri.

Açıklama

Anahtar Kelimeler

Missing Values, Grey Wolf Algorithm, Diabetes Disease, Classification, Eksik Değerler, Gri Kurt Algoritması, Diyabet Hastalığı, Sınıflandırma

Kaynak

AURUM Journal of Engineering Systems and Architecture

WoS Q Değeri

Scopus Q Değeri

Cilt

7

Sayı

1

Künye

Ahmed, A., İnan, T. (2023). A missing data imputation method based on grey wolf algorithm for diabetes disease. AURUM Journal of Engineering Systems and Architecture, 7(1), 55-72.