DSpace
 

EMU I-REP >
08 Faculty of Arts and Sciences >
Department of Mathematics >
Theses (Master's and Ph.D) – Mathematics >

Please use this identifier to cite or link to this item: http://hdl.handle.net/11129/6430

Title: Enhanced Sentiment Analysis in Microblogs through the use of XGboost Classifier and Genetic Algorithm
Authors: Dimililer, Nazife (Supervisor)
Aziz, Roza Hikmat Hama
Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics
Keywords: Thesis Tez
Computer Engineering Department
Information storage and retrieval systems--Microblogs--Classifiers
Data Processing
Microblogs--Blogs--Video Blogs
Social networks--Microblogging
Sentiment analysis
feature extraction methods
machine learning approaches
ensemble learning approaches
simple majority voting
weighted majority voting
optimized ensemble classifier
XGBoost
and genetic algorithm
Issue Date: Sep-2021
Publisher: Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ)
Citation: Aziz, Roza Hikmat Hama. (2021).Enhanced Sentiment Analysis in Microblogs through the use of XGboost Classifier and Genetic Algorithm. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Mathematics, Famagusta: North Cyprus.
Abstract: Studies on sentiment analysis and opinion mining initially focused on polarity classification through the use of positive, negative, or neutral categories. Nevertheless, despite their importance in a wide range of applications, the classification of extreme opinions, such as highly negative and very positive ones were not targeted until recently. In this work, we focus on a 5-point scale to include extreme sentiments as well. The majority of studies in this domain have focused on approaches tailored towards special datasets. This doctoral thesis proposes two novel ensemble classifier approaches to improve the performance of the sentiment analysis task. The first proposed ensemble classifier framework called “SentiXGboost” is designed to improve binary sentiment analysis tasks using the XGBoost algorithm as a meta-classifier for stacked ensembling. The second proposed approach provides a framework based on the concept of the Genetic Algorithms for producing an optimized classifier ensemble for binary, ternary, and fine-grained, denoted “SentiGA”, sentiment analysis task. Both of the proposed approaches are evaluated on the major sentiment datasets, including SemEval-2017 (Sentiment Analysis in Twitter) task (4A, 4B, and 4C), Stanford Sentiment Treebank (SST-2 and SST-5), Sentimet140, Sentiment Labelled Sentences (Amazon), Stanford Sentiment Gold Standard, Yelp Challenge Dataset and Movie Review (Sentiment Polarity Dataset V2.0). The performance of both proposed approaches is compared with other existing well-known methods in the field using the same datasets. The results show that our proposed approaches have successfully enhanced the performance of sentiment analysis classification compared to other existing methods.
ÖZ: Duygu analizi ve fikir madenciliği alanındaki ilk çalışmalar olumlu, olumsuz veya tarafsız kategorilerinden yararlanarak, özellikle görüşlerin polarite veya kutupluluklarına göre iki veya üç kategoriye göre sınıflandırılması gibi konulara yoğunlaştı. Bununla birlikte, duyguların ve görüşlerin derecelendirilmesi ve çok olumsuz ve çok olumlu görüşler gibi aşırı görüşlerin de tanımlanması birçok uygulamada büyük önem taşıdığı halde bu konularında çalışmalara fazla yer verilmemiştir. Bu çalışmada, kutupluluk sınıflandırması yanında, aşırı duyguları da içerecek şekilde 5 puanlık bir ölçeğe odaklanıyoruz. Bu alandaki çalışmaların çoğu, özel veri setlerine için uyarlanmış yaklaşımlara odaklanmıştır. Bu doktora tezi, duygu analizinde performansı iyileştirmek için iki yeni sınıflandırıcı topluluğu yaklaşımı önermektedir. “SentiXGboost” olarak adlandırılan ilk önerilen sınıflandırıcı topluluğu, yığın kümeleme için bir meta sınıflandırıcı olarak XGBoost algoritmasını kullanarak iki sınıflı duygu analizi sistemi geliştirmek için tasarlanmıştır. Önerilen ikinci sınıflandırıcı toplululuğu, SentiGA, ikili, üçlü ve ince taneli sınıflandırmalar için optimize edilmiş bir sınıflandırıcı topluluğu üretmek için Genetik Algoritma kavramına dayalı bir çerçeve sunar. Önerilen yaklaşımların her ikisi de SemEval-2017 (Sentiment Analysis in Twitter /Twitter'da Duygu Analizi) görevi (4A, 4B ve 4C), Stanford Sentiment Treebank (SST-2 ve SST-5), Sentimet140, Sentiment Labeled Sentences/Duygu Etiketli Cümleler (Amazon), Stanford Sentiment Gold Standard, Yelp Challenge ve Movie Review/Film İncelemesi (Sentiment Polarity Dataset V2.0) veri seti dahil olmak üzere önemli duygu veri setlerinde değerlendirilmiştir. Önerilen her iki yaklaşımın performansı, aynı veri setleri kullanılarak sahada mevcut diğer iyi bilinen yöntemlerle karşılaştırılmıştır. Sonuçlar, önerilen her iki yaklaşımın da diğer mevcut yöntemlere kıyasla duygu/görüş analizinin performans sınıflandırmasını başarıyla geliştirdiğini göstermektedir
Description: Doctor of Philosophy in Applied Mathematics and Computer Science. Institute of Graduate Studies and Research. Thesis (Ph.D.) - Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics, 2021. Supervisor: Assoc. Prof. Dr. Nazife Dimililer.
URI: http://hdl.handle.net/11129/6430
Appears in Collections:Theses (Master's and Ph.D) – Mathematics

Files in This Item:

File Description SizeFormat
Azizroza-Ph.D..pdfThesis, Doctoral1.42 MBAdobe PDFView/Open


This item is protected by original copyright

Recommend this item
View Statistics

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2010  Duraspace - Feedback