Feature Selection Using Co-occurrence of Terms for Binary Text Classification

EMU I-REP

Show simple item record

dc.contributor.author Mashak, Marzieh Vahabi
dc.date.accessioned 2015-06-29T10:54:43Z
dc.date.available 2015-06-29T10:54:43Z
dc.date.issued 2015-02
dc.identifier.citation Mashak, Marzieh Vahabi. (2015). Feature Selection Using Co-occurrence of Terms for Binary Text Classification. Thesis (M.S.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus. en_US
dc.identifier.uri http://hdl.handle.net/11129/1757
dc.description Master of Science in Computer Engineering. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2015. Supervisor: Prof. Dr. Hakan Altınçay. en_US
dc.description.abstract ABSTRACT: In this thesis, term selection for text categorization is addressed. Three widely used schemes are employed for this purpose, namely Chi-square (x2), Gini_index and Discriminative Power Measure (DPM). The performances of these schemes are evaluated on Reuters-21578 separately for document frequencies and term frequencies. In summary, utilizing the term frequencies leads to better macro and micro F1 score when compared to using only document frequencies. As an extension to the conventionally used term selection schemes, we studied the use of co-occurrence statistics of different terms for feature selection. More specifically, the idea is to evaluate the discriminative power of having two different terms in the selected list at the same time. In order to achieve this, an iterative scheme is designed where the next term to be included in the selected list is determined by pairwise evaluation of the already selected terms and the candidate terms. For the pairwise evaluation of different terms, novel metrics based on the existing selection schemes are developed. Experimental results have shown that the proposed iterative scheme has the potential to improve the existing schemes. Keywords: Term Selection, Text Classification, x2, Gini-index, DPM, Bag-of-Words. ………………………………………………………………………………………………………………………… ÖZ: Bu tezde metin sınıflandırma için kelime seçme konusu ele alınmıştır. Bu amaçla sıklıkla kullanılan Chi-kare ( x2),Gini-indisi ve Ayırıcı Güç Ölçütü (AGÖ) isimli üç kelime seçme yöntemi kullanılmıştır. Bu metodların başarımları Reuters-21578 verisi üzerinde döküman frekansları ve kelime frekansları kullanılarak incelenmiştir. Kelime frekansları kullanımının döküman frekanslarına göre daha iyi makro ve mikro F1 skorları sağladığı gözlenmiştir. Geleneksel olarak kullanılan kelime seçme yöntemlerine iyileştirme olarak, kelimelerin ayni anda bulunma istatistiklerinin kullanımı üzerinde çalışılmıştır. Daha özel olarak belirtecek olursak esas fikir, iki kelimenin ayni anda seçilmiş listede olmasının öneminin dikkate alınmasıdır. Bunu sağlamak için, daha önce seçilen kelimeler ile seçilmeye aday kelimeleri ikili olarak değerlendiren yinelemeli bir yöntem geliştirilmiştir. Farklı kelimelerin ikili değerlendirilmesi için, mevcut seçme yöntemlerini temel alan yeni metrikler geliştirilmiştir. Deneysel sonuçlar, önerilen yinelemeli yaklaşımın mevcut yöntemleri iyileştirme potansiyeline sahip olduğunu göstermiştir. Anahtar kelimeler: Kelime Seçme, Metin sınıflandırma, x2, Gini-indisi , AGÖ, Kelime-sepeti. en_US
dc.language.iso en en_US
dc.publisher Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ) en_US
dc.subject Computer Engineering en_US
dc.subject Database management - Data mining en_US
dc.subject Information storage and retrieval systems en_US
dc.subject Text processing (Computer science) en_US
dc.subject Term Selection, Text Classification, X2, Gini-index, DPM, Bag-of-Words en_US
dc.title Feature Selection Using Co-occurrence of Terms for Binary Text Classification en_US
dc.type Thesis en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record