DSpace
 

EMU I-REP >
02 Faculty of Engineering >
Department of Computer Engineering >
Theses (Master's and Ph.D) – Computer Engineering >

Please use this identifier to cite or link to this item: http://hdl.handle.net/11129/1757

Title: Feature Selection Using Co-occurrence of Terms for Binary Text Classification
Authors: Mashak, Marzieh Vahabi
Keywords: Computer Engineering
Database management - Data mining
Information storage and retrieval systems
Text processing (Computer science)
Term Selection, Text Classification, X2, Gini-index, DPM, Bag-of-Words
Issue Date: Feb-2015
Publisher: Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ)
Citation: Mashak, Marzieh Vahabi. (2015). Feature Selection Using Co-occurrence of Terms for Binary Text Classification. Thesis (M.S.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus.
Abstract: ABSTRACT: In this thesis, term selection for text categorization is addressed. Three widely used schemes are employed for this purpose, namely Chi-square (x2), Gini_index and Discriminative Power Measure (DPM). The performances of these schemes are evaluated on Reuters-21578 separately for document frequencies and term frequencies. In summary, utilizing the term frequencies leads to better macro and micro F1 score when compared to using only document frequencies. As an extension to the conventionally used term selection schemes, we studied the use of co-occurrence statistics of different terms for feature selection. More specifically, the idea is to evaluate the discriminative power of having two different terms in the selected list at the same time. In order to achieve this, an iterative scheme is designed where the next term to be included in the selected list is determined by pairwise evaluation of the already selected terms and the candidate terms. For the pairwise evaluation of different terms, novel metrics based on the existing selection schemes are developed. Experimental results have shown that the proposed iterative scheme has the potential to improve the existing schemes. Keywords: Term Selection, Text Classification, x2, Gini-index, DPM, Bag-of-Words. ………………………………………………………………………………………………………………………… ÖZ: Bu tezde metin sınıflandırma için kelime seçme konusu ele alınmıştır. Bu amaçla sıklıkla kullanılan Chi-kare ( x2),Gini-indisi ve Ayırıcı Güç Ölçütü (AGÖ) isimli üç kelime seçme yöntemi kullanılmıştır. Bu metodların başarımları Reuters-21578 verisi üzerinde döküman frekansları ve kelime frekansları kullanılarak incelenmiştir. Kelime frekansları kullanımının döküman frekanslarına göre daha iyi makro ve mikro F1 skorları sağladığı gözlenmiştir. Geleneksel olarak kullanılan kelime seçme yöntemlerine iyileştirme olarak, kelimelerin ayni anda bulunma istatistiklerinin kullanımı üzerinde çalışılmıştır. Daha özel olarak belirtecek olursak esas fikir, iki kelimenin ayni anda seçilmiş listede olmasının öneminin dikkate alınmasıdır. Bunu sağlamak için, daha önce seçilen kelimeler ile seçilmeye aday kelimeleri ikili olarak değerlendiren yinelemeli bir yöntem geliştirilmiştir. Farklı kelimelerin ikili değerlendirilmesi için, mevcut seçme yöntemlerini temel alan yeni metrikler geliştirilmiştir. Deneysel sonuçlar, önerilen yinelemeli yaklaşımın mevcut yöntemleri iyileştirme potansiyeline sahip olduğunu göstermiştir. Anahtar kelimeler: Kelime Seçme, Metin sınıflandırma, x2, Gini-indisi , AGÖ, Kelime-sepeti.
Description: Master of Science in Computer Engineering. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2015. Supervisor: Prof. Dr. Hakan Altınçay.
URI: http://hdl.handle.net/11129/1757
Appears in Collections:Theses (Master's and Ph.D) – Computer Engineering

Files in This Item:

File Description SizeFormat
MashakMarzieh.pdf1.74 MBAdobe PDFView/Open


This item is protected by original copyright

Recommend this item
View Statistics

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2010  Duraspace - Feedback