According to World Health Organization, about 422 million people worldwide have diabetes, vast majority of whom belong to Type 2. In addition to this population, a noticeable percentage of people has either undiagnosed Type 2 diabetes or prediabetes. Since this disease causes death mainly through physiological complications such as cardiovascular disease, it is highly crucial to diagnose it in an early stage. The medical diagnosis is done by three invasive blood tests which make it almost impossible to periodically screen the whole population. As an alternative approach, development of automated systems that can identify patients having Type 2 diabetes using non-invasive predictors such as age, waist circumference, family history and body mass index is extensively studied. In this thesis, the use of an enriched set of predictors including symptoms, diagnoses, lifestyle habits and medications is considered for improving the detection performance. The main motivation for this study is that the complications due to the onset of the disease might occur before medical diagnosis. The performance of various classifiers including logistic regression and support vector machines, and feature selection schemes such as mRMR and Relief are investigated. The experiments conducted have shown that additionally defined features provide better area under the receiver operating characteristic curve scores.
Keywords: Type 2 Diabetes Classification, Feature Extraction, Feature Selection, Filters, Wrappers, Embedded Feature Selection
ÖZ:
Dünya sağlık örgütüne göre dünya çapında, büyük çoğunluğu tip 2 olmak üzere yaklaşık 422 milyon insan diyabet hastasıdır. Bu gruba ek olarak, önemli sayıda tespit edilmemiş tip 2 diyabet veya öndiyabet hastası mevcuttur. Bu hastalık kardiyovasküler hastalıklar gibi fizyolojik komplikasyonlar yüzünden ölüme sebebiyet verdiğinden, erken teşhis son derece önemlidir. Tıbbi teşhis üç farklı kan testi ile yapıldığından tüm nüfusu periyodik olarak taramak mümkün değildir. Alternatif bir yaklaşım olarak, yaş, bel çevresi, aile tarihçesi ve vücut kitle indisi gibi prediktörler kullanarak tip 2 diyabet hastalarını bulabilen otomatik sistemlerin geliştirilmesi konusunda yoğun olarak çalışılmaktadır. Bu tezde, tanıma başarımını artırmak için semıtomlar, teşhisler, yaşam tarzı ve kullanılan ilaçlar gibi bilgiler içeren zenginleştirilmiş bir prediktör kümesi kulanımı üzerinde çalışılmıştır. Bu çalışmanın esas motivasyonu, hastalığın başlangıcından dolayı oluşan komplikasyonların tıbbi teşhis yapılmadan önce başlamasının mümkün olmasıdır. Lojistik regresyon ve destek vektör makinaları gibi sınıflandırıcıları da içeren birçok sınıflandırıcının ve mRMR ile Relief gibi birçok öznitelik seçme yönteminin başarımları incelenmiştir. Yapılan deneysel çalışmalar, ek olarak tanımlanmış prediktörlerin karar vericinin etkinliği eğri altı alanını iyileştirdiğini göstermiştir.
Anahtar Kelimeler: Tip 2 Diyabet Sınıflandırma, Öznitelik Çıkarımı, Öznitelik Seçimi, Fitreler, Sarmalılar, Gömülü Öznitelik Seçme