DSpace
 

EMU I-REP >
02 Faculty of Engineering >
Department of Computer Engineering >
Theses (Master's and Ph.D) – Computer Engineering >

Please use this identifier to cite or link to this item: http://hdl.handle.net/11129/5026

Title: A Comparative Study of Statistical Models for Feature Selection Methods in Text Categorization
Authors: Ergün, Cem
Sarıhan, Tansel
Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering
Keywords: Computer Engineering
Text processing (Computer science)
Computational linguistics--Statistical methods
Natural language processing (Computer science)
Feature Selection Methods
Text Categorization
Term Weighting Performance Evaluation
Issue Date: 2019
Publisher: Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ)
Citation: Sarıhan, Tansel. (2019). A Comparative Study of Statistical Models for Feature Selection Methods in Text Categorization. Thesis (M.S.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus.
Abstract: In consequence of change and developments in the world of technology, the data have been started to transfer to the digital environment rapidly and categorization task of digital documents has become difficult and complicated. Therefore, researchers have focused on doing more research in field of machine learning to provide a more effective solution in terms of resources and time. A major problem of text categorization is the high dimension of the feature space. Feature selection methods are widely used for choosing the subset of features in last decades. In order to maximize the text classification efficiency, some machine learning algorithms and feature selection methods are studied in a comparative way. The experiments are conducted with Reuters-21578 "ApteMod" version, The 4-Universities and 20- Newsgroups "bydate" version datasets. Many topics are discussed from gathering data to organizing data with diffent preprocessing and term weighting approaches to perform test by using the feature selection methods and many classification algorithms. The idea behind of feature selection is that determining of the importance of words that are discriminative for categorization task and removing the non-informative terms. In this regard, CHI-Square, Mutual Information, Galavotti-Sebastiani-Simi Coefficient and Document Frequency metrics are studied for feature selection process. The TF-IDF and probability-based term weighting approaches are used to prepare the texts for classification process. Then to get the best achievement for the classifiers and feature selection methods, the effectiveness of system is evaluated with performance evaluation metrics such as accuracy score, precision, recall and f-measure.
ÖZ: Teknoloji dünyasındaki değişim ve gelişmelerin sonucunda, veriler hızla dijital ortama aktarılmaya başlanmış ve böylece, dijital belgelerin sınıflandırılması zor ve karmaşık hale gelmiştir. Bu sebepten dolayı araştırmacılar bu probleme zaman ve kaynak kullanımı açısından daha verimli bir çözüm sağlamak için makine öğrenmesi alanında daha fazla araştırma yapmaya odaklanmıştır. Metin sınıflandırmanın ana sorunu, özellik alanının yüksek boyutudur. Özellik seçim yöntemleri, son yıllarda özelliklerin alt kümesini seçmek için yaygın olarak kullanılır. Metin sınıflandırma verimliliğini en üst düzeye çıkarmak için, bazı makine öğrenme algoritmaları ve özellik seçimi yöntemleri karşılaştırmalı olarak incelenmiştir. Deneyler Reuters-21578 "ApteMod", The 4-Universities ve 20-Newsgroups "bydate" verisetleri ile gerçekleştirilmiştir. Özellik seçim yöntemlerini ve birçok sınıflandırma algoritmasını kullanarak farklı metin ön işleme ve terim ağırlıklandırma yaklaşımlarına kadar birçok konu tartışılmaktadır. Özellik seçiminin arkasındaki fikir, metinlerin kategorilerini ayırabilecek nitelikte olan kelimelerin öneminin belirlenmesi ve bilgilendirici olmayan terimlerin kaldırılmasıdır. Bu bağlamda, özellik seçimi için Ki-kare, Karşılıklı bilgi, Galavotti-Sebastiani-Simi Katsayısı ve Döküman frekansı ölçümleri incelenmiştir. TF-IDF ve olasılık temelli terim ağırlıklandırma yaklaşımları, metinleri sınıflandırma sürecine hazırlamak için kullanılmıştır. Daha sonra en iyi sınıflandırıcıları ve özellik seçim metriklerini elde etmek için, sistemin etkinliği accuracy, precision, recall ve fölçüsü gibi performans değerlendirme ölçütleri ile değerlendirilmiştir.
Description: Master of Science in Computer Engineering. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2019. Supervisor: Assist. Prof. Dr. Cem Ergün.
URI: http://hdl.handle.net/11129/5026
Appears in Collections:Theses (Master's and Ph.D) – Computer Engineering

Files in This Item:

File Description SizeFormat
SarihanTansel.pdfThesis, Master3.74 MBAdobe PDFView/Open


This item is protected by original copyright

Recommend this item
View Statistics

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2010  Duraspace - Feedback