The growth of social media and micro-blogs has greatly shifted the dynamics of businesses and the way advertising is carried out. Micro-blogs have transformed the consumer from being mere shoppers to advertiser and reviewers. Micro-blog opinions have become the reflection of society’s opinions, attitudes, and preferences at large hence the greater need to not only access data stemming from microblogs, but to be able to analyze the data and make predictions based on it, whether a product is seen in a positive light or negatively. This fierce battle for consumers ‘attention has resulted in many corporations investing in data analysis to capture the market; consumers nowadays heavily rely on the opinions and reviews shared across microblogs in order to make a decision on products and services on offer. Thus, the need for organizations to be able to classify these reviews quickly and as proficiently as possible. However, the task of combing through millions of reviews to determine the sentiment of the feedback is humanly tasking henceforth a number of machine learning techniques to detect and perform binary classification – positive and negative- on reviews have already been proposed. However, the nature of the reviews of micro-blogs has resulted in classification increasingly becoming more complex with the usage of emoticons, slang and short phrase which we have dubbed as “social media language”. Classifying such complex reviews or blog posts using simplistic single classifiers no longer suffices hence in this paper, we proposed an ensemble classifier-based approach to detect polarity of reviews. The proposed ensemble classifier uses 7 classifiers- Random Forest (RF), Support Vector Machine (SVM), Logistic Regression (LR), Naïve Bayes, K- Nearest Neighbors (KNN), Xgboost and Adaboost classifiers. The proposed technique is assessed on Pang et al.’s polarity dataset v1.0, Bo Pang and
Lillian Lee’s 2004 ACL polarity dataset v2.0 and ACL’s IMDb dataset. The evaluation results show that the proposed classifier provides better classification accuracy on both datasets than simple classifiers.
Keywords: Ensemble, Bagging, Sentiment Analysis, F1-Score, Accuracy, Classification.
ÖZ:
Sosyal medya ve mikro blog kullanımının gittikçe artması, işletmelerin dinamiklerini ve reklamcılık konusundaki yaklaşımlarını büyük ölçüde değiştirmiştir. Tüketici artık sadece müşteri değil, aynı zamanda reklam ve yorum yapan konuma gelmiştir. Mikro-bloglarda ve sosyal medyada paylaşılan düşünceler ve yorumlar, toplumun görüşlerinin, tutumunun, tercihlerinin bir yansıması haline gelmiştir. Bu yüzden bu düşüncelerin ve yorumların doğru şekilde analiz edebilmesi ve Pazar tahminleri için kullanılabilmesi gerekmektedir. Bu durum bir çok şirketin tüketiciye ulaşmak ve Pazar payını artırmak için veri analizine yatırım yapmasına neden olmuştur. Bunlara ek olarak, tüketicilerin, herhangi bir ürünün satın alınmasıyla ilgili bir karar vermek için de mikro-bloglar arasında paylaşılan görüşlere ve incelemelere büyük ölçüde güvendikleri gözlemlenmiştir. Bu nedenle, kuruluşların bu düşünce ve yorumları mümkün olduğunca hızlı ve etkin bir şekilde sınıflandırabilmeleri gerekmektedir. Bu problemin çözümü için mikro-blog ve sosyal medya ortamlarındaki düşünceleri olumlu ve olumsuz olarak iki sınıfa ayırmak üzere bir çok sınıflandırıcı önerilmiştir. Bununla birlikte, sosyal medyada yapılan yorum ve paylaşılan düşüncelerin özellikleri sınıflandırmayı zorlaştırmakta ve tek bir sınıflandırıcı kullanmayı zorlaştırmaktadır. Bu nedenle, bu çalışmada, yorumların olumlu ve olumsuz olarak sınıflandırılması amacıyla sınıflandırıcı topluluğu tabanlı bir yaklaşım önerdik. Önerilen sınıflandırıcı topluluğunda Rastgele Orman (Random Forest), Destek Vektör Makinesi (Support Vector Machine), Lojistik Regresyon (Logistic Regression), Naïve Bayes, K- En Yakın Komşular (K-Nearest Neigbor), Xgboost ve Adaboost sınıflandırıcıları kullanılmıştır. Önerilen yöntem, IMDB etiketli duygu veri seti, Polarite veri seti v1.0 ve 2004 ACL polarite veri seti v2.0 da değerlendirilmiştir. Değerlendirme sonuçları,
önerilen sınıflandırıcının her iki veri setinde de basit sınıflandırma gruplarından daha iyi sınıflandırma doğruluğu (Accuracy) sağladığını göstermektedir.
Anahtar Kelimeler: Grup, Çuvallama, Duygu Analizi, F1-Skoru, Doğruluk, Sınıflandırma.