This dissertation addressed two aspects within the Data Mining field: filter variable selection, and knowledge discovery in datasets. A filter algorithm that serves to reduce the feature space in datasets, with special attention to healthcare data, was developed and tested. The algorithm binarizes the dataset, and then separately evaluates the risk ratio of each predictor with the response, and outputs ratios that represent the association between a predictor and the class attribute which translates to the importance rank of the corresponding predictor. The performance of the developed algorithm was compared against some existing feature selection algorithms on different datasets, using classification models. In the majority of the cases, the predictors selected by the new algorithm outperformed those selected by the existing algorithms. The proposed filter algorithm is therefore a reliable alternative for variable ranking in data mining classification with a dichotomous response.
In the aspect of knowledge discovery in datasets, the relationship between employees’ psychological capital (PsyCap) and educational qualifications, and the relationship between employees’ PsyCap and organizational tenure was mined. The PsyCap and demographic data of 329 employees in the hospitality industry were collected. The odds ratio (OR) technique was deployed to measure the associations which revealed that, employees with higher educational qualifications are 2.6 times more likely to have positive psychological capital than those with lower educational qualifications. It was also discovered that employees who have stayed longer periods within the service of an organization are 3.6 times more likely to be seen as having
positive psychological capital compared with those who have stayed shorter periods. The results of the two associations are statistically significant at p-value = 0.002 < 0.05 and p-value = 0.004 < 0.05, respectively. These findings will guide business owners on the calibre of employees to hire, retrench, or retain during general recruitment or retrenchment.
Keywords: Data mining, Classification, Attribute selection, Odds ratio, Filter algorithm, Balanced classification accuracy
ÖZ:
Bu çalışma veri madenciliği alanındaki iki konuya değinmiştir: nitelik altküme (değişken) seçimi ve bilgi keşfi. Özellikle sağlık alanındaki veriler kullanılarak, veri kümelerindeki değişken miktarını azaltmaya yarayan bir algoritma geliştirildi ve test edildi. Önerilen algoritma, veriyi ikili sayma sistemi durumuna getirir ve herbir değişkenin ayrı ayrı sınıf değişkenine göre risk oranını değerlendirir ve değişkenleri risk oranına bağlı olarak önem derecesine göre sıralar. Geliştirilen algoritmanın performansı, bilinen diğer sınıflandırma algoritmaları ile farklı modeller kullanılarak karşılaştırılmıştır. Vakaların çoğunda, önerilen algoritma mevcut algoritmaların sonuçlarından daha iyi sonuçlar vermiştir. Bu nedenle önerilen algoritma, veri madenciliği sınıflandırmasında değişken sıralama için güvenilir bir alternatiftir.
Veri setlerinde bilgi keşfi açısından, çalışanların psikolojik durumu ile eğitim kalitesi arasındaki ilişki ve çalışanların psikolojik durumu ile çalışanların görev süresi arasındaki ilişki incelenmiştir. Bu amaçla, konaklama sektöründe 329 çalışanın psikolojik durumu ve demografik verileri toplanmıştır.
Yüksek vasıflı niteliklere sahip çalışanların, pozitif psikolojiye sahip olma ihtimalinin düşük eğitim niteliklerine sahip olanlara oranla 2.6 kat daha fazla olduğunu ölçmek için, göreceli olasılıklar oranı tekniği uygulandı. Ayrıca, daha uzun süre çalışanların, kısa süreli çalışanlara kıyasla pozitif psikolojiye sahip olma ihtimalinin 3.6 kat daha fazla olduğu tespit edilmiştir.
İki ilişkinin sonuçları sırasıyla p= 0.002 < 0.05 ve p= 0.004 < 0.05 değerlerinde istatistiksel olarak anlamlıdır. Bu bulgular, işletme sahiplerine çalışanları konusunda işe alım, işten çıkarma veya genel işe alım veya genel işten çıkarma konusunda rehberlik edecektir.
Anahtar Kelimeler: Veri madenciliği, Sınıflandırma, Değişken seçimi, Göreceli olasılıklar oranı, Filtreleme algoritması, Dengelenmiş sınıflandırma doğruluğu