Abstract:
ABSTRACT: The identification of an author's gender from a text has become a popular research area within the scope of text categorization. The number of users of social network applications based on text, such as Twitter, Facebook and text messaging services, has grown rapidly over the past few decades. As a result, text has become one of the most important and prevalent media types on the Internet. This thesis aims to determine the gender of an author from an arbitrary piece of text such as, for example a journal article or email. This field of research has garnered the interest of the researchers for the reason that some people fake their gender in text-based Internet forensics. The psychology of linguistic indicates how closely the words and writing styles people use correlate with their gender. Various feature sets have been used by researchers in recent decades to identify the gender of an author; however, identifying feature sets remains a research obstacle. In this dissertation, five feature sets were selected to prepare a feature space for the gender identification problem. The features in these sets included character-based features, word-based features, syntactic-based features, structure-based features and the function words that an author used in a text. Two state-of-the-art machine learning algorithms were considered for the author gender identification problem, based on the proposed feature space in this thesis. Weka (data mining software) was used to design a support vector machine classifier and a Bayesian logistic regression classifier. The reason for choosing these two classifiers was that support vector machine and Bayesian logistic regression are the most powerful classifiers for text mining. An Enron email dataset, which is available to researchers on the Internet, was used in the training and testing phases during experiments to provide sufficient data for the classification process. Keywords: Machine Learning, classifier, psychology linguistic, Support Vector Machine, Bayesian logistic regression, gender identification.
…………………………………………………………………………………………………………………………
ÖZ: Metinden yazar cinsiyetinin belirlenmesi, metin sınıflama kapsamında yaygın bir araştırma konusu olmuştur.Metin tabanlı sosyal medya uygulamalarındaki kullanı sayısı son yıllarda hızla artmıştır.Sonuç olarak metin, internet üzerindeki en önemli ve yaygın medya haline gelmiştir.Bu çalışmada, rastgele seçilmiş metin parçalarından, örneğin makale veya e-posta yazarının cinsiyeti belirlenmiştir.Bu çalışma alanı, araştırmacıların ilgisini çekmiştir çünkü bazı kişiler metin tabanlı internet ortamında cinsiyetlerini saklamaktadırlar. Dil psikolojisi, yazarın cinsiyeti ile kullandığı kelimelerin ve yazım şeklinin çok yakından ilişkili olduğunu göstermektedir.Geçtiğimiz on yılda, araştırmacılar yazar cinsiyetini belirlemek için çeşitli özellik kümeleri kullanmışlardır.Bununla beraber özellik kümelerinin belirlenmesi zorluğunu korumaktadır. Bu çalışmada, cinsiyet belirleme problemi için hazırlanan özellik uzayı; beş özellik kümesi seçilerek oluşturulmuştur. Kümelerdeki özellikler karakter tabanlı özellikler, kelime tabanlı özellikler, sözdizimsel özellikler, yapısal özellikler ve bir yazarın metinde kullandığı işlev kelimelerden oluşmaktadır.
Bu çalışmada, yazar cinisiyeti belirleme problem için, sunulan özellik uzayında, iki en yeni makine öğrenmesi algoritması kullanılmıştır. Bir Destek Vektör Makinası sınıflayıcı ve bir Bayes lojistik regresyon sınıflayıcısı tasarlamak için Weka (veri madenleme yazılımı) kullanılmıştır. Bu iki sınıflayıcının seçilmesinin nedeni, metin madenciliği için destek vektör makinası ve Bayes lojistik regresyonun en güçlü sınıflayıcılardan olmasıdır. Sınıflama sürecinde kullanılan veriler internetten sağlanmıştır.Araştırmacılar için bağışlanan Enron e-posta veri kümesi, denemeler sırasında eğitim ve test fazlarında kullanılmıştır. Anahtar Kelimeler: Makine öğrenme, sınıflandırıcı, dilsel psikoloji, Destek Vektör Makinesi, Bayes lojistik regresyon, cinsiyet belirleme.
Description:
Master of Science in Computer Engineering. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2014. Supervisor: Assist. Prof. Dr. Cem Ergün.