Post-Pruning Decision Tree Algorithms Based on Bayes Minimum Risk and Loss Minimization to Combat Over-Fitting Problem

dc.contributor.advisorUlusoy, Ali Hakan (Co-Supervisor)
dc.contributor.advisorRizaner, Ahmet (Supervisor)
dc.contributor.authorMohamed, Ahmed Mohamed Ahmed
dc.date.accessioned2022-05-26T09:40:13Z
dc.date.available2022-05-26T09:40:13Z
dc.date.issued2018
dc.date.submitted2018-05
dc.departmentEastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematicsen_US
dc.descriptionDoctor of Philosophy in Applied Mathematics and Computer Science. Thesis (Ph.D.)--Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics, 2018. Co-Supervisor: Assoc. Prof. Dr. Ali Hakan Ulusoy, Supervisor: Assoc. Prof. Dr. Ahmet Rizaner.en_US
dc.description.abstractPruning is applied in order to combat over-fitting problem where the tree is pruned with the goal of identifying decision tree with the lowest error rate on previously unobserved instances. Post-pruning approach is one of the most powerful and effective pruning methods in decision trees. This method traverses the tree in bottom-up fashion removing the unproductive branches based on the misclassification error rate of each parent node and its leaves. In this thesis, two post-pruning approaches named as Pruning with Bayes Minimum Risk (PBMR) and Pruning based on Zero-One Loss Function (ZOLFP) are proposed. In PBMR approach, the tree is pruned based on the estimating risk-rate and a parent node of a subtree is converted to a leaf node if the estimated risk-rate of the parent node for that subtree is less than the sum of the risk-rates of its leaves. ZOLFP approach minimizes the expected loss of the tree by employing Zero-One loss function method. A subtree is pruned when expected loss of the node is less than or equal to the sum of the loss of its leaves. The two proposed methods are evaluated in terms of performance accuracy, tree complexity, precision/recall scores, True Positive (TP) and False Positive (FP) rates and area under ROC considering attribute selection. The experimental results show that the two proposed methods produce better classification accuracy compared to un-pruned decision tree, Reduced-Error Pruning (REP), and Minimum-Error Pruning (MEP) with complexity not much different than the complexities of REP and MEP. The experiments also demonstrate that the proposed methods show satisfactory performance in terms of precision/recall score, TP rate, FP rate and area under ROC. Keywords: decision tree, pruning, post-pruning, Bayes minimum risk, Zero-One lossen_US
dc.description.abstractÖZ: Budama, en düşük hata oranı ile karar ağacını tanımlama sırasında meydana gelen aşırı-uydurma sorunu ile mücadele etmek amacıyla uygulanır. Sonradan-budama yaklaşımları karar ağaçlarında en etkili budama yöntemlerinden olup her bir ana düğümün ve yapraklarının yanlış sınıflandırma hata oranına dayanarak verimsiz dallarını çıkartarak ağacı aşağıdan yukarıya doğru inceler. Bu tezde, Bayes Minimum Risk (PBMR) ve Sıfır-Bir Kayıp Fonksiyonu (ZOLFP) temel alınarak geliştirilen iki sonradan-budama yaklaşımı önerilmiştir. PBMR yaklaşımında, bir alt ağacın ana düğümü, bu alt ağacın ana düğümünün tahmini risk oranının yapraklarının toplam risk oranlarından daha az olması durumunda bir yaprak düğümüne dönüştürülür. ZOLFP yaklaşımı, Sıfır-bir kayıp fonksiyonuna bağlı bir yöntem kullanarak ağacın beklenen kaybını en aza indirir. Önerilen iki yöntem performans doğruluğu, ağaç karmaşıklığı, hassasiyet/geri-çağırmaskoru, Gerçek Pozitif (TP) ve Yanlış Pozitif (FP) oranları, öznitelik seçimi veKarar Vericinin Etkinliği (ROC) altındaki alan dikkate alınarak değerlendirilmiştir. Deneysel sonuçlar, önerilen her iki yöntemin, Azaltılmış Hata Budama (REP) ve Minimum Hata Budama (MEP) yöntemlerinin karmaşıklığına yakınbir karmaşıklık ile budamayı gerçekleştirdiğini vebu yöntemler ile karşılaştırıldığında daha iyi sınıflandırma doğruluğu ürettiğini göstermektedir. Deneyler, önerilen yöntemlerin, hassasiyet skoru, geri-çağırma skoru, TP oranı, FP oranı ve ROC altındaki alan açısından da tatmin edici bir performans sergilediğini göstermektedir. Anahtar Kelimeler: karar ağacı, budama, sonradan-budama, Bayes minimum risk, Sıfır-bir kayıpen_US
dc.identifier.citationMohamed, Ahmed Mohamed Ahmed. (2018). Post-Pruning Decision Tree Algorithms Based on Bayes Minimum Risk and Loss Minimization to Combat Over-Fitting Problem. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Mathematics, Famagusta: North Cyprus.en_US
dc.identifier.urihttps://hdl.handle.net/11129/5555
dc.language.isoen
dc.publisherEastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ)en_US
dc.relation.publicationcategoryTez
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectMathematicsen_US
dc.subjectApplied Mathematics and Computer Scienceen_US
dc.subjectMathematical statisticsen_US
dc.subjectDecision treeen_US
dc.subjectpruningen_US
dc.subjectpost-pruningen_US
dc.subjectBayes minimum risken_US
dc.subjectZero-One lossen_US
dc.titlePost-Pruning Decision Tree Algorithms Based on Bayes Minimum Risk and Loss Minimization to Combat Over-Fitting Problemen_US
dc.typeDoctoral Thesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
mohamedahmed.pdf
Size:
1.32 MB
Format:
Adobe Portable Document Format
Description:
Thesis, Doctoral

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.77 KB
Format:
Item-specific license agreed upon to submission
Description: