Abstract:
ABSTRACT: In this thesis, term selection for text categorization is addressed. Three widely used schemes are employed for this purpose, namely Chi-square (x2), Gini_index and Discriminative Power Measure (DPM). The performances of these schemes are evaluated on Reuters-21578 separately for document frequencies and term frequencies. In summary, utilizing the term frequencies leads to better macro and micro F1 score when compared to using only document frequencies. As an extension to the conventionally used term selection schemes, we studied the use of co-occurrence statistics of different terms for feature selection. More specifically, the idea is to evaluate the discriminative power of having two different terms in the selected list at the same time. In order to achieve this, an iterative scheme is designed where the next term to be included in the selected list is determined by pairwise evaluation of the already selected terms and the candidate terms. For the pairwise evaluation of different terms, novel metrics based on the existing selection schemes are developed. Experimental results have shown that the proposed iterative scheme has the potential to improve the existing schemes.
Keywords: Term Selection, Text Classification, x2, Gini-index, DPM, Bag-of-Words.
…………………………………………………………………………………………………………………………
ÖZ: Bu tezde metin sınıflandırma için kelime seçme konusu ele alınmıştır. Bu amaçla sıklıkla kullanılan Chi-kare ( x2),Gini-indisi ve Ayırıcı Güç Ölçütü (AGÖ) isimli üç kelime seçme yöntemi kullanılmıştır. Bu metodların başarımları Reuters-21578 verisi üzerinde döküman frekansları ve kelime frekansları kullanılarak incelenmiştir. Kelime frekansları kullanımının döküman frekanslarına göre daha iyi makro ve mikro F1 skorları sağladığı gözlenmiştir.
Geleneksel olarak kullanılan kelime seçme yöntemlerine iyileştirme olarak, kelimelerin ayni anda bulunma istatistiklerinin kullanımı üzerinde çalışılmıştır. Daha özel olarak belirtecek olursak esas fikir, iki kelimenin ayni anda seçilmiş listede olmasının öneminin dikkate alınmasıdır. Bunu sağlamak için, daha önce seçilen kelimeler ile seçilmeye aday kelimeleri ikili olarak değerlendiren yinelemeli bir yöntem geliştirilmiştir. Farklı kelimelerin ikili değerlendirilmesi için, mevcut seçme yöntemlerini temel alan yeni metrikler geliştirilmiştir. Deneysel sonuçlar, önerilen yinelemeli yaklaşımın mevcut yöntemleri iyileştirme potansiyeline sahip olduğunu göstermiştir.
Anahtar kelimeler: Kelime Seçme, Metin sınıflandırma, x2, Gini-indisi , AGÖ, Kelime-sepeti.
Description:
Master of Science in Computer Engineering. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2015. Supervisor: Prof. Dr. Hakan Altınçay.