Filter Variable Selection Algorithm and Knowledge Discovery in Datasets

dc.contributor.advisorBodur, Ersin Kuset
dc.contributor.authorAtsa’am, Donald Douglas
dc.date.accessioned2021-09-02T10:52:55Z
dc.date.available2021-09-02T10:52:55Z
dc.date.issued2019-06
dc.date.submitted2019
dc.departmentEastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematicsen_US
dc.descriptionDoctor of Philosophy in Applied Mathematics and Computer Science. Thesis (Ph.D.)--Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics, 2019. Supervisor: Assist. Prof. Dr. Ersin Kuset Bodur.en_US
dc.description.abstractThis dissertation addressed two aspects within the Data Mining field: filter variable selection, and knowledge discovery in datasets. A filter algorithm that serves to reduce the feature space in datasets, with special attention to healthcare data, was developed and tested. The algorithm binarizes the dataset, and then separately evaluates the risk ratio of each predictor with the response, and outputs ratios that represent the association between a predictor and the class attribute which translates to the importance rank of the corresponding predictor. The performance of the developed algorithm was compared against some existing feature selection algorithms on different datasets, using classification models. In the majority of the cases, the predictors selected by the new algorithm outperformed those selected by the existing algorithms. The proposed filter algorithm is therefore a reliable alternative for variable ranking in data mining classification with a dichotomous response. In the aspect of knowledge discovery in datasets, the relationship between employees’ psychological capital (PsyCap) and educational qualifications, and the relationship between employees’ PsyCap and organizational tenure was mined. The PsyCap and demographic data of 329 employees in the hospitality industry were collected. The odds ratio (OR) technique was deployed to measure the associations which revealed that, employees with higher educational qualifications are 2.6 times more likely to have positive psychological capital than those with lower educational qualifications. It was also discovered that employees who have stayed longer periods within the service of an organization are 3.6 times more likely to be seen as having positive psychological capital compared with those who have stayed shorter periods. The results of the two associations are statistically significant at p-value = 0.002 < 0.05 and p-value = 0.004 < 0.05, respectively. These findings will guide business owners on the calibre of employees to hire, retrench, or retain during general recruitment or retrenchment. Keywords: Data mining, Classification, Attribute selection, Odds ratio, Filter algorithm, Balanced classification accuracyen_US
dc.description.abstractÖZ: Bu çalışma veri madenciliği alanındaki iki konuya değinmiştir: nitelik altküme (değişken) seçimi ve bilgi keşfi. Özellikle sağlık alanındaki veriler kullanılarak, veri kümelerindeki değişken miktarını azaltmaya yarayan bir algoritma geliştirildi ve test edildi. Önerilen algoritma, veriyi ikili sayma sistemi durumuna getirir ve herbir değişkenin ayrı ayrı sınıf değişkenine göre risk oranını değerlendirir ve değişkenleri risk oranına bağlı olarak önem derecesine göre sıralar. Geliştirilen algoritmanın performansı, bilinen diğer sınıflandırma algoritmaları ile farklı modeller kullanılarak karşılaştırılmıştır. Vakaların çoğunda, önerilen algoritma mevcut algoritmaların sonuçlarından daha iyi sonuçlar vermiştir. Bu nedenle önerilen algoritma, veri madenciliği sınıflandırmasında değişken sıralama için güvenilir bir alternatiftir. Veri setlerinde bilgi keşfi açısından, çalışanların psikolojik durumu ile eğitim kalitesi arasındaki ilişki ve çalışanların psikolojik durumu ile çalışanların görev süresi arasındaki ilişki incelenmiştir. Bu amaçla, konaklama sektöründe 329 çalışanın psikolojik durumu ve demografik verileri toplanmıştır. Yüksek vasıflı niteliklere sahip çalışanların, pozitif psikolojiye sahip olma ihtimalinin düşük eğitim niteliklerine sahip olanlara oranla 2.6 kat daha fazla olduğunu ölçmek için, göreceli olasılıklar oranı tekniği uygulandı. Ayrıca, daha uzun süre çalışanların, kısa süreli çalışanlara kıyasla pozitif psikolojiye sahip olma ihtimalinin 3.6 kat daha fazla olduğu tespit edilmiştir. İki ilişkinin sonuçları sırasıyla p= 0.002 < 0.05 ve p= 0.004 < 0.05 değerlerinde istatistiksel olarak anlamlıdır. Bu bulgular, işletme sahiplerine çalışanları konusunda işe alım, işten çıkarma veya genel işe alım veya genel işten çıkarma konusunda rehberlik edecektir. Anahtar Kelimeler: Veri madenciliği, Sınıflandırma, Değişken seçimi, Göreceli olasılıklar oranı, Filtreleme algoritması, Dengelenmiş sınıflandırma doğruluğuen_US
dc.identifier.citationAtsa’am, Donald Douglas. (2019). Filter Variable Selection Algorithm and Knowledge Discovery in Datasets. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Mathematics, Famagusta: North Cyprus.en_US
dc.identifier.urihttps://hdl.handle.net/11129/5108
dc.language.isoen
dc.publisherEastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ)en_US
dc.relation.publicationcategoryTez
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectMathematicsen_US
dc.subjectApplied Mathematics and Computer Scienceen_US
dc.subjectData Miningen_US
dc.subjectData miningen_US
dc.subjectClassificationen_US
dc.subjectAttribute selectionen_US
dc.subjectOdds ratioen_US
dc.subjectFilter algorithmen_US
dc.subjectBalanced classification accuracyen_US
dc.titleFilter Variable Selection Algorithm and Knowledge Discovery in Datasetsen_US
dc.typeDoctoral Thesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Atsaamdonald.pdf
Size:
530.11 KB
Format:
Adobe Portable Document Format
Description:
Thesis, Doctoral

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.77 KB
Format:
Item-specific license agreed upon to submission
Description: