Enhanced Sentiment Analysis in Microblogs through the use of XGboost Classifier and Genetic Algorithm

EMU I-REP

Show simple item record

dc.contributor.advisor Dimililer, Nazife (Supervisor)
dc.contributor.author Aziz, Roza Hikmat Hama
dc.date.accessioned 2025-07-23T10:12:23Z
dc.date.available 2025-07-23T10:12:23Z
dc.date.issued 2021-09
dc.date.submitted 2021-09
dc.identifier.citation Aziz, Roza Hikmat Hama. (2021).Enhanced Sentiment Analysis in Microblogs through the use of XGboost Classifier and Genetic Algorithm. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Mathematics, Famagusta: North Cyprus. en_US
dc.identifier.uri http://hdl.handle.net/11129/6430
dc.description Doctor of Philosophy in Applied Mathematics and Computer Science. Institute of Graduate Studies and Research. Thesis (Ph.D.) - Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics, 2021. Supervisor: Assoc. Prof. Dr. Nazife Dimililer. en_US
dc.description.abstract Studies on sentiment analysis and opinion mining initially focused on polarity classification through the use of positive, negative, or neutral categories. Nevertheless, despite their importance in a wide range of applications, the classification of extreme opinions, such as highly negative and very positive ones were not targeted until recently. In this work, we focus on a 5-point scale to include extreme sentiments as well. The majority of studies in this domain have focused on approaches tailored towards special datasets. This doctoral thesis proposes two novel ensemble classifier approaches to improve the performance of the sentiment analysis task. The first proposed ensemble classifier framework called “SentiXGboost” is designed to improve binary sentiment analysis tasks using the XGBoost algorithm as a meta-classifier for stacked ensembling. The second proposed approach provides a framework based on the concept of the Genetic Algorithms for producing an optimized classifier ensemble for binary, ternary, and fine-grained, denoted “SentiGA”, sentiment analysis task. Both of the proposed approaches are evaluated on the major sentiment datasets, including SemEval-2017 (Sentiment Analysis in Twitter) task (4A, 4B, and 4C), Stanford Sentiment Treebank (SST-2 and SST-5), Sentimet140, Sentiment Labelled Sentences (Amazon), Stanford Sentiment Gold Standard, Yelp Challenge Dataset and Movie Review (Sentiment Polarity Dataset V2.0). The performance of both proposed approaches is compared with other existing well-known methods in the field using the same datasets. The results show that our proposed approaches have successfully enhanced the performance of sentiment analysis classification compared to other existing methods. en_US
dc.description.abstract ÖZ: Duygu analizi ve fikir madenciliği alanındaki ilk çalışmalar olumlu, olumsuz veya tarafsız kategorilerinden yararlanarak, özellikle görüşlerin polarite veya kutupluluklarına göre iki veya üç kategoriye göre sınıflandırılması gibi konulara yoğunlaştı. Bununla birlikte, duyguların ve görüşlerin derecelendirilmesi ve çok olumsuz ve çok olumlu görüşler gibi aşırı görüşlerin de tanımlanması birçok uygulamada büyük önem taşıdığı halde bu konularında çalışmalara fazla yer verilmemiştir. Bu çalışmada, kutupluluk sınıflandırması yanında, aşırı duyguları da içerecek şekilde 5 puanlık bir ölçeğe odaklanıyoruz. Bu alandaki çalışmaların çoğu, özel veri setlerine için uyarlanmış yaklaşımlara odaklanmıştır. Bu doktora tezi, duygu analizinde performansı iyileştirmek için iki yeni sınıflandırıcı topluluğu yaklaşımı önermektedir. “SentiXGboost” olarak adlandırılan ilk önerilen sınıflandırıcı topluluğu, yığın kümeleme için bir meta sınıflandırıcı olarak XGBoost algoritmasını kullanarak iki sınıflı duygu analizi sistemi geliştirmek için tasarlanmıştır. Önerilen ikinci sınıflandırıcı toplululuğu, SentiGA, ikili, üçlü ve ince taneli sınıflandırmalar için optimize edilmiş bir sınıflandırıcı topluluğu üretmek için Genetik Algoritma kavramına dayalı bir çerçeve sunar. Önerilen yaklaşımların her ikisi de SemEval-2017 (Sentiment Analysis in Twitter /Twitter'da Duygu Analizi) görevi (4A, 4B ve 4C), Stanford Sentiment Treebank (SST-2 ve SST-5), Sentimet140, Sentiment Labeled Sentences/Duygu Etiketli Cümleler (Amazon), Stanford Sentiment Gold Standard, Yelp Challenge ve Movie Review/Film İncelemesi (Sentiment Polarity Dataset V2.0) veri seti dahil olmak üzere önemli duygu veri setlerinde değerlendirilmiştir. Önerilen her iki yaklaşımın performansı, aynı veri setleri kullanılarak sahada mevcut diğer iyi bilinen yöntemlerle karşılaştırılmıştır. Sonuçlar, önerilen her iki yaklaşımın da diğer mevcut yöntemlere kıyasla duygu/görüş analizinin performans sınıflandırmasını başarıyla geliştirdiğini göstermektedir en_US
dc.language.iso eng en_US
dc.publisher Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ) en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject Thesis Tez en_US
dc.subject Computer Engineering Department en_US
dc.subject Information storage and retrieval systems--Microblogs--Classifiers en_US
dc.subject Data Processing en_US
dc.subject Microblogs--Blogs--Video Blogs en_US
dc.subject Social networks--Microblogging en_US
dc.subject Sentiment analysis en_US
dc.subject feature extraction methods en_US
dc.subject machine learning approaches en_US
dc.subject ensemble learning approaches en_US
dc.subject simple majority voting en_US
dc.subject weighted majority voting en_US
dc.subject optimized ensemble classifier en_US
dc.subject XGBoost en_US
dc.subject and genetic algorithm en_US
dc.title Enhanced Sentiment Analysis in Microblogs through the use of XGboost Classifier and Genetic Algorithm en_US
dc.type doctoralThesis en_US
dc.contributor.department Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record