Studies on sentiment analysis and opinion mining initially focused on polarity
classification through the use of positive, negative, or neutral categories.
Nevertheless, despite their importance in a wide range of applications, the
classification of extreme opinions, such as highly negative and very positive ones
were not targeted until recently. In this work, we focus on a 5-point scale to include
extreme sentiments as well. The majority of studies in this domain have focused on
approaches tailored towards special datasets. This doctoral thesis proposes two novel
ensemble classifier approaches to improve the performance of the sentiment analysis
task. The first proposed ensemble classifier framework called “SentiXGboost” is
designed to improve binary sentiment analysis tasks using the XGBoost algorithm as
a meta-classifier for stacked ensembling. The second proposed approach provides a
framework based on the concept of the Genetic Algorithms for producing an
optimized classifier ensemble for binary, ternary, and fine-grained, denoted
“SentiGA”, sentiment analysis task. Both of the proposed approaches are evaluated
on the major sentiment datasets, including SemEval-2017 (Sentiment Analysis in
Twitter) task (4A, 4B, and 4C), Stanford Sentiment Treebank (SST-2 and SST-5),
Sentimet140, Sentiment Labelled Sentences (Amazon), Stanford Sentiment Gold
Standard, Yelp Challenge Dataset and Movie Review (Sentiment Polarity Dataset
V2.0). The performance of both proposed approaches is compared with other
existing well-known methods in the field using the same datasets. The results show
that our proposed approaches have successfully enhanced the performance of
sentiment analysis classification compared to other existing methods.
ÖZ:
Duygu analizi ve fikir madenciliği alanındaki ilk çalışmalar olumlu, olumsuz veya
tarafsız kategorilerinden yararlanarak, özellikle görüşlerin polarite veya
kutupluluklarına göre iki veya üç kategoriye göre sınıflandırılması gibi konulara
yoğunlaştı. Bununla birlikte, duyguların ve görüşlerin derecelendirilmesi ve çok
olumsuz ve çok olumlu görüşler gibi aşırı görüşlerin de tanımlanması birçok
uygulamada büyük önem taşıdığı halde bu konularında çalışmalara fazla yer
verilmemiştir. Bu çalışmada, kutupluluk sınıflandırması yanında, aşırı duyguları da
içerecek şekilde 5 puanlık bir ölçeğe odaklanıyoruz. Bu alandaki çalışmaların çoğu,
özel veri setlerine için uyarlanmış yaklaşımlara odaklanmıştır. Bu doktora tezi,
duygu analizinde performansı iyileştirmek için iki yeni sınıflandırıcı topluluğu
yaklaşımı önermektedir. “SentiXGboost” olarak adlandırılan ilk önerilen
sınıflandırıcı topluluğu, yığın kümeleme için bir meta sınıflandırıcı olarak XGBoost
algoritmasını kullanarak iki sınıflı duygu analizi sistemi geliştirmek için
tasarlanmıştır. Önerilen ikinci sınıflandırıcı toplululuğu, SentiGA, ikili, üçlü ve ince
taneli sınıflandırmalar için optimize edilmiş bir sınıflandırıcı topluluğu üretmek için
Genetik Algoritma kavramına dayalı bir çerçeve sunar. Önerilen yaklaşımların her
ikisi de SemEval-2017 (Sentiment Analysis in Twitter /Twitter'da Duygu Analizi)
görevi (4A, 4B ve 4C), Stanford Sentiment Treebank (SST-2 ve SST-5),
Sentimet140, Sentiment Labeled Sentences/Duygu Etiketli Cümleler (Amazon),
Stanford Sentiment Gold Standard, Yelp Challenge ve Movie Review/Film
İncelemesi (Sentiment Polarity Dataset V2.0) veri seti dahil olmak üzere önemli
duygu veri setlerinde değerlendirilmiştir. Önerilen her iki yaklaşımın performansı,
aynı veri setleri kullanılarak sahada mevcut diğer iyi bilinen yöntemlerle
karşılaştırılmıştır. Sonuçlar, önerilen her iki yaklaşımın da diğer mevcut yöntemlere
kıyasla duygu/görüş analizinin performans sınıflandırmasını başarıyla geliştirdiğini
göstermektedir