A missing data imputation method based on grey wolf algorithm for diabetes disease
Yükleniyor...
Dosyalar
Tarih
2023
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Altınbaş Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
The bulk of medical databases contain coverage gaps due in large part to the expensive expense of some tests or human
error in documenting these tests. Due to the absence of values for some features, the performance of the machine
learning models is significantly impacted. Consequently, a specific category of techniques is necessary for the aim of
imputing missing data. In this study, the Grey Wolf Algorithm (GWA) is used to generate and impute the missing values
in the Pima Indian Diabetes Disease (PIDD) dataset. The proposed method is known as the Pima Indian Diabetes
Disease (PIDD) Algorithm (IGW). The obtained results demonstrated that the classification performance of three
distinct classifiers, namely the Support Vector Machine (SVM), the K-Nearest Neighbor (KNN), and the Naive
Bayesian Classifier (NBC), was enhanced in comparison to the dataset prior to the application of the proposed method.
In addition, the results indicated that IGW performed better than statistical imputation procedures such as removing
samples with missing values, replacing them with zeros, mean, or random values.
Tıbbi veritabanlarının büyük kısmı, büyük ölçüde bazı testlerin pahalı masraflarından veya bu testlerin belgelenmesindeki insan hatasından dolayı kapsam boşlukları içermektedir. Bazı özellikler için değerlerin olmaması nedeniyle, makine öğrenimi modellerinin performansı önemli ölçüde etkilenir. Sonuç olarak, eksik verileri atamak amacıyla belirli bir teknik kategorisi gereklidir. Bu çalışmada, Pima Indian Diabetes Disease (PIDD) veri setindeki eksik değerleri oluşturmak ve hesaplamak için Gray Wolf Algoritması (GWA) kullanılmıştır. Önerilen yöntem Pima Hint Diyabet Hastalığı (PIDD) Algoritması (IGW) olarak bilinir. Elde edilen sonuçlar, Destek Vektör Makinesi (SVM), K-En Yakın Komşu (KNN) ve Naive Bayes Sınıflandırıcısı (NBC) olmak üzere üç farklı sınıflandırıcının sınıflandırma performansının önceki veri kümesine kıyasla arttığını göstermiştir. Önerilen yöntemin uygulanması. Ek olarak, sonuçlar IGW'nin istatistiksel olarak daha iyi performans gösterdiğini göstermiştir. eksik değerlere sahip örneklerin çıkarılması, sıfırlar, ortalama veya rastgele değerler ile değiştirilmesi gibi atama prosedürleri.
Tıbbi veritabanlarının büyük kısmı, büyük ölçüde bazı testlerin pahalı masraflarından veya bu testlerin belgelenmesindeki insan hatasından dolayı kapsam boşlukları içermektedir. Bazı özellikler için değerlerin olmaması nedeniyle, makine öğrenimi modellerinin performansı önemli ölçüde etkilenir. Sonuç olarak, eksik verileri atamak amacıyla belirli bir teknik kategorisi gereklidir. Bu çalışmada, Pima Indian Diabetes Disease (PIDD) veri setindeki eksik değerleri oluşturmak ve hesaplamak için Gray Wolf Algoritması (GWA) kullanılmıştır. Önerilen yöntem Pima Hint Diyabet Hastalığı (PIDD) Algoritması (IGW) olarak bilinir. Elde edilen sonuçlar, Destek Vektör Makinesi (SVM), K-En Yakın Komşu (KNN) ve Naive Bayes Sınıflandırıcısı (NBC) olmak üzere üç farklı sınıflandırıcının sınıflandırma performansının önceki veri kümesine kıyasla arttığını göstermiştir. Önerilen yöntemin uygulanması. Ek olarak, sonuçlar IGW'nin istatistiksel olarak daha iyi performans gösterdiğini göstermiştir. eksik değerlere sahip örneklerin çıkarılması, sıfırlar, ortalama veya rastgele değerler ile değiştirilmesi gibi atama prosedürleri.
Açıklama
Anahtar Kelimeler
Missing Values, Grey Wolf Algorithm, Diabetes Disease, Classification, Eksik Değerler, Gri Kurt Algoritması, Diyabet Hastalığı, Sınıflandırma
Kaynak
AURUM Journal of Engineering Systems and Architecture
WoS Q Değeri
Scopus Q Değeri
Cilt
7
Sayı
1
Künye
Ahmed, A., İnan, T. (2023). A missing data imputation method based on grey wolf algorithm for diabetes disease. AURUM Journal of Engineering Systems and Architecture, 7(1), 55-72.