Filter Variable Selection Algorithm and Knowledge Discovery in Datasets

EMU I-REP

Show simple item record

dc.contributor.advisor Bodur, Ersin Kuset
dc.contributor.author Atsa’am, Donald Douglas
dc.date.accessioned 2021-09-02T10:52:55Z
dc.date.available 2021-09-02T10:52:55Z
dc.date.issued 2019-06
dc.date.submitted 2019
dc.identifier.citation Atsa’am, Donald Douglas. (2019). Filter Variable Selection Algorithm and Knowledge Discovery in Datasets. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Mathematics, Famagusta: North Cyprus. en_US
dc.identifier.uri http://hdl.handle.net/11129/5108
dc.description Doctor of Philosophy in Applied Mathematics and Computer Science. Thesis (Ph.D.)--Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics, 2019. Supervisor: Assist. Prof. Dr. Ersin Kuset Bodur. en_US
dc.description.abstract This dissertation addressed two aspects within the Data Mining field: filter variable selection, and knowledge discovery in datasets. A filter algorithm that serves to reduce the feature space in datasets, with special attention to healthcare data, was developed and tested. The algorithm binarizes the dataset, and then separately evaluates the risk ratio of each predictor with the response, and outputs ratios that represent the association between a predictor and the class attribute which translates to the importance rank of the corresponding predictor. The performance of the developed algorithm was compared against some existing feature selection algorithms on different datasets, using classification models. In the majority of the cases, the predictors selected by the new algorithm outperformed those selected by the existing algorithms. The proposed filter algorithm is therefore a reliable alternative for variable ranking in data mining classification with a dichotomous response. In the aspect of knowledge discovery in datasets, the relationship between employees’ psychological capital (PsyCap) and educational qualifications, and the relationship between employees’ PsyCap and organizational tenure was mined. The PsyCap and demographic data of 329 employees in the hospitality industry were collected. The odds ratio (OR) technique was deployed to measure the associations which revealed that, employees with higher educational qualifications are 2.6 times more likely to have positive psychological capital than those with lower educational qualifications. It was also discovered that employees who have stayed longer periods within the service of an organization are 3.6 times more likely to be seen as having positive psychological capital compared with those who have stayed shorter periods. The results of the two associations are statistically significant at p-value = 0.002 < 0.05 and p-value = 0.004 < 0.05, respectively. These findings will guide business owners on the calibre of employees to hire, retrench, or retain during general recruitment or retrenchment. Keywords: Data mining, Classification, Attribute selection, Odds ratio, Filter algorithm, Balanced classification accuracy en_US
dc.description.abstract ÖZ: Bu çalışma veri madenciliği alanındaki iki konuya değinmiştir: nitelik altküme (değişken) seçimi ve bilgi keşfi. Özellikle sağlık alanındaki veriler kullanılarak, veri kümelerindeki değişken miktarını azaltmaya yarayan bir algoritma geliştirildi ve test edildi. Önerilen algoritma, veriyi ikili sayma sistemi durumuna getirir ve herbir değişkenin ayrı ayrı sınıf değişkenine göre risk oranını değerlendirir ve değişkenleri risk oranına bağlı olarak önem derecesine göre sıralar. Geliştirilen algoritmanın performansı, bilinen diğer sınıflandırma algoritmaları ile farklı modeller kullanılarak karşılaştırılmıştır. Vakaların çoğunda, önerilen algoritma mevcut algoritmaların sonuçlarından daha iyi sonuçlar vermiştir. Bu nedenle önerilen algoritma, veri madenciliği sınıflandırmasında değişken sıralama için güvenilir bir alternatiftir. Veri setlerinde bilgi keşfi açısından, çalışanların psikolojik durumu ile eğitim kalitesi arasındaki ilişki ve çalışanların psikolojik durumu ile çalışanların görev süresi arasındaki ilişki incelenmiştir. Bu amaçla, konaklama sektöründe 329 çalışanın psikolojik durumu ve demografik verileri toplanmıştır. Yüksek vasıflı niteliklere sahip çalışanların, pozitif psikolojiye sahip olma ihtimalinin düşük eğitim niteliklerine sahip olanlara oranla 2.6 kat daha fazla olduğunu ölçmek için, göreceli olasılıklar oranı tekniği uygulandı. Ayrıca, daha uzun süre çalışanların, kısa süreli çalışanlara kıyasla pozitif psikolojiye sahip olma ihtimalinin 3.6 kat daha fazla olduğu tespit edilmiştir. İki ilişkinin sonuçları sırasıyla p= 0.002 < 0.05 ve p= 0.004 < 0.05 değerlerinde istatistiksel olarak anlamlıdır. Bu bulgular, işletme sahiplerine çalışanları konusunda işe alım, işten çıkarma veya genel işe alım veya genel işten çıkarma konusunda rehberlik edecektir. Anahtar Kelimeler: Veri madenciliği, Sınıflandırma, Değişken seçimi, Göreceli olasılıklar oranı, Filtreleme algoritması, Dengelenmiş sınıflandırma doğruluğu en_US
dc.language.iso eng en_US
dc.publisher Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ) en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject Mathematics en_US
dc.subject Applied Mathematics and Computer Science en_US
dc.subject Data Mining en_US
dc.subject Data mining en_US
dc.subject Classification en_US
dc.subject Attribute selection en_US
dc.subject Odds ratio en_US
dc.subject Filter algorithm en_US
dc.subject Balanced classification accuracy en_US
dc.title Filter Variable Selection Algorithm and Knowledge Discovery in Datasets en_US
dc.type doctoralThesis en_US
dc.contributor.department Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record