Post-Pruning Decision Tree Algorithms Based on Bayes Minimum Risk and Loss Minimization to Combat Over-Fitting Problem

EMU I-REP

Show simple item record

dc.contributor.advisor Ulusoy, Ali Hakan (Co-Supervisor)
dc.contributor.advisor Rizaner, Ahmet (Supervisor)
dc.contributor.author Mohamed, Ahmed Mohamed Ahmed
dc.date.accessioned 2022-05-26T09:40:13Z
dc.date.available 2022-05-26T09:40:13Z
dc.date.issued 2018
dc.date.submitted 2018-05
dc.identifier.citation Mohamed, Ahmed Mohamed Ahmed. (2018). Post-Pruning Decision Tree Algorithms Based on Bayes Minimum Risk and Loss Minimization to Combat Over-Fitting Problem. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Mathematics, Famagusta: North Cyprus. en_US
dc.identifier.uri http://hdl.handle.net/11129/5555
dc.description Doctor of Philosophy in Applied Mathematics and Computer Science. Thesis (Ph.D.)--Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics, 2018. Co-Supervisor: Assoc. Prof. Dr. Ali Hakan Ulusoy, Supervisor: Assoc. Prof. Dr. Ahmet Rizaner. en_US
dc.description.abstract Pruning is applied in order to combat over-fitting problem where the tree is pruned with the goal of identifying decision tree with the lowest error rate on previously unobserved instances. Post-pruning approach is one of the most powerful and effective pruning methods in decision trees. This method traverses the tree in bottom-up fashion removing the unproductive branches based on the misclassification error rate of each parent node and its leaves. In this thesis, two post-pruning approaches named as Pruning with Bayes Minimum Risk (PBMR) and Pruning based on Zero-One Loss Function (ZOLFP) are proposed. In PBMR approach, the tree is pruned based on the estimating risk-rate and a parent node of a subtree is converted to a leaf node if the estimated risk-rate of the parent node for that subtree is less than the sum of the risk-rates of its leaves. ZOLFP approach minimizes the expected loss of the tree by employing Zero-One loss function method. A subtree is pruned when expected loss of the node is less than or equal to the sum of the loss of its leaves. The two proposed methods are evaluated in terms of performance accuracy, tree complexity, precision/recall scores, True Positive (TP) and False Positive (FP) rates and area under ROC considering attribute selection. The experimental results show that the two proposed methods produce better classification accuracy compared to un-pruned decision tree, Reduced-Error Pruning (REP), and Minimum-Error Pruning (MEP) with complexity not much different than the complexities of REP and MEP. The experiments also demonstrate that the proposed methods show satisfactory performance in terms of precision/recall score, TP rate, FP rate and area under ROC. Keywords: decision tree, pruning, post-pruning, Bayes minimum risk, Zero-One loss en_US
dc.description.abstract ÖZ: Budama, en düşük hata oranı ile karar ağacını tanımlama sırasında meydana gelen aşırı-uydurma sorunu ile mücadele etmek amacıyla uygulanır. Sonradan-budama yaklaşımları karar ağaçlarında en etkili budama yöntemlerinden olup her bir ana düğümün ve yapraklarının yanlış sınıflandırma hata oranına dayanarak verimsiz dallarını çıkartarak ağacı aşağıdan yukarıya doğru inceler. Bu tezde, Bayes Minimum Risk (PBMR) ve Sıfır-Bir Kayıp Fonksiyonu (ZOLFP) temel alınarak geliştirilen iki sonradan-budama yaklaşımı önerilmiştir. PBMR yaklaşımında, bir alt ağacın ana düğümü, bu alt ağacın ana düğümünün tahmini risk oranının yapraklarının toplam risk oranlarından daha az olması durumunda bir yaprak düğümüne dönüştürülür. ZOLFP yaklaşımı, Sıfır-bir kayıp fonksiyonuna bağlı bir yöntem kullanarak ağacın beklenen kaybını en aza indirir. Önerilen iki yöntem performans doğruluğu, ağaç karmaşıklığı, hassasiyet/geri-çağırmaskoru, Gerçek Pozitif (TP) ve Yanlış Pozitif (FP) oranları, öznitelik seçimi veKarar Vericinin Etkinliği (ROC) altındaki alan dikkate alınarak değerlendirilmiştir. Deneysel sonuçlar, önerilen her iki yöntemin, Azaltılmış Hata Budama (REP) ve Minimum Hata Budama (MEP) yöntemlerinin karmaşıklığına yakınbir karmaşıklık ile budamayı gerçekleştirdiğini vebu yöntemler ile karşılaştırıldığında daha iyi sınıflandırma doğruluğu ürettiğini göstermektedir. Deneyler, önerilen yöntemlerin, hassasiyet skoru, geri-çağırma skoru, TP oranı, FP oranı ve ROC altındaki alan açısından da tatmin edici bir performans sergilediğini göstermektedir. Anahtar Kelimeler: karar ağacı, budama, sonradan-budama, Bayes minimum risk, Sıfır-bir kayıp en_US
dc.language.iso eng en_US
dc.publisher Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ) en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject Mathematics en_US
dc.subject Applied Mathematics and Computer Science en_US
dc.subject Mathematical statistics en_US
dc.subject Decision tree en_US
dc.subject pruning en_US
dc.subject post-pruning en_US
dc.subject Bayes minimum risk en_US
dc.subject Zero-One loss en_US
dc.title Post-Pruning Decision Tree Algorithms Based on Bayes Minimum Risk and Loss Minimization to Combat Over-Fitting Problem en_US
dc.type doctoralThesis en_US
dc.contributor.department Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record