DSpace
 

EMU I-REP >
08 Faculty of Arts and Sciences >
Department of Mathematics >
Theses (Master's and Ph.D) – Mathematics >

Please use this identifier to cite or link to this item: http://hdl.handle.net/11129/5887

Title: Hate Speech Detection in Social Media
Authors: Dimililer, Nazife
Aljero, Mona Khalifa A.
Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics
Keywords: Mathematics
Applied Mathematics and Computer Science
Computer security--Speech Detection
Social Media--Hate Speech Detection--Computer Security
Internet--Social aspects--Cyberbullying--Harasssment
Natural language processing (Computer science)
Computational intelligence--Language Detection--Speech Detection
Hate speech
text classification
classifier
classifier ensembles
stacking ensemble
text mining
genetic programming
pattern classification
Issue Date: Jan-2022
Publisher: Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ)
Citation: Aljero, Mona Khalifa A.. (2022). Hate Speech Detection in Social Media. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Mathematics, Famagusta: North Cyprus.
Abstract: Hate speech is a phenomenal issue for social media platforms. Recently a rapid increase in hate speech happened all over social media platforms. The aim of this thesis is to improve the performance of the current state-of-the-art for binary text classification in terms of hate speech on social media platforms. The popularity of social media has grown dramatically in recent years. Because of the ease of use and anonymity of the user identity, this increase coincided with the growth of hate speech on social media platforms. Due to the increasing propagation of hate speech, these platforms must implement an automatic hate speech identification system. Hate speech recognition is a difficult task in text mining, due to the use of colloquial language, intentional or incorrect spelling variations. The limitation of the message size on social media platforms also complicates the task since the context of the message is not readily available. Various approaches have been applied to text classification using supervised machine learning models, unsupervised machine learning models, and ensemble approaches. Nevertheless, these approaches did not acquire sufficient confidence to be implemented on social media platforms to address the classification of hate speech. Through this thesis, we proposed two models for detecting hate speech on social media platforms. In the first proposed approach, we developed a model using the novel stacking approach, when two levels of classifiers are used for improving hate speech performance. The second approach based on genetic programming (GP), which is an optimization technique. In the GP approach, a novel mutation technique that combines the standard one-point mutation with a novel feature mutation is employed. Both proposed methods were tested on four publicly available datasets of varying sizes. The experimental results show an improvement in the performance over the other used approaches in this thesis. The results show that the GP approach improves the performance on all datasets, compared to the state-of-the-art in terms of F1-score. On the other hand, in comparison with the state-of-the-art, the stacking approach improves the performance on three over four of the used datasets. Keywords: hate speech, text classification, classifier, classifier ensembles, stacking ensemble, text mining, genetic programming, pattern classification.
ÖZ: Bu tezin amacı, sosyal medya platformlarında nefret söylemi tespit etmek için makine öğrenimi yaklaşımlarının kullanımını araştırarak son teknolojiyi geliştirmektir. Kitlelerin günlük yaşamlarında sosyal medyanın yaygın kullanımındaki keskin artışa paralel olarak sosyal medyanın nispeten kontrolsüz doğası ve kullanıcıların kimliğinin saklanabilmesi nedeniyle üretilen küfürlü ve nefret dolu içerik miktarı da artmaktadır. Nefret söyleminin yayılmasının bireyler ve toplum üzerinde ciddi sonuçları olabileceğinden sosyal medya platformları, nefret söylemini tespit etmek ve önlemek için otomatik nefret söylemi tanımlama sistemleri uygulamalıdır. Bununla birlikte, sosyal medyada nefret söyleminin tespit edilmesi, günlük konuşma dilinin kullanılması, kasıtlı veya kasıtsız yanlış yazım varyasyonları nedeniyle zor bir görevdir. Sosyal medya platformlarında mesaj boyutunun sınırlı olması nedeniyle mesajın bağlamının belirlenememesi de görevi karmaşıklaştırmaktadır. Denetimli makine öğrenimi modellerini, denetimsiz makine öğrenimi modellerini ve topluluk yaklaşımlarını kullanan çeşitli sınıflandırma yaklaşımları önerilmiş olsa da hala nefret söylemi tespiti konusunda elde edilen başarı yeterli değildir. Bu tez ile sosyal medya platformlarında nefret söylemini tespit etmek için iki model önerilmiştir. Önerilen ilk yaklaşımda hem temel sınıflandırıcıların hem de meta sınıflandırıcının aynı özellik setini kullandığı iki seviyeli bir yığınlama mimarisi önerilmiştir. Önerilen ikinci yaklaşım, bir optimizasyon tekniği olan genetik programlamaya (GP) dayanmaktadır. GP yaklaşımında, standart tek noktalı mutasyonu yeni bir özellik mutasyonu ile birleştiren yeni bir mutasyon tekniği kullanılmıştır. Önerilen her iki yöntem de çeşitli boyutlarda halka açık dört veri kümesi üzerinde test edilmiş ve deneysel sonuçlar, bu tezde kullanılan diğer yaklaşımlara göre performansta bir gelişme olduğunu kanıtlamıştır. Yığınlama yaklaşımı, kullanılan veri kümelerinin dördünden üçünde en son teknolojinin performansını iyileştirmiştir. Ayrıca sonuçlar, GP yaklaşımının performansının tüm veri kümelerinde en son teknolojiyi aştığını göstermektedir. Anahtar Kelimeler: nefret söylemi, metin sınıflandırması, sınıflandırıcı, sınıflandırıcı toplulukları, yığınlama topluluğu, metin madenciliği, genetik programlama.
Description: Doctor of Philosophy in Applied Mathematics and Computer Science. Institute of Graduate Studies and Research. Thesis (Ph.D.) - Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics, 2022. Supervisor: Assoc. Prof. Dr. Nazife Dimililer.
URI: http://hdl.handle.net/11129/5887
Appears in Collections:Theses (Master's and Ph.D) – Mathematics

Files in This Item:

File Description SizeFormat
Aljeromona-Ph.D..pdfThesis, Doctoral769.32 kBAdobe PDFView/Open


This item is protected by original copyright

Recommend this item
View Statistics

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2010  Duraspace - Feedback