Termset Selection and Weighting in Binary Text Classification

dc.contributor.advisorAltınçay, Hakan
dc.contributor.authorBadawi, Dima
dc.date.accessioned2016-09-30T11:09:37Z
dc.date.available2016-09-30T11:09:37Z
dc.date.issued2015-06
dc.date.submitted2015
dc.departmentEastern Mediterranean University, Faculty of Engineering, Department of Computer Engineeringen_US
dc.descriptionDoctor of Philosophy in Computer Engineering. Thesis (Ph.D.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2015. Supervisor: Prof. Dr. Hakan Altınçay.en_US
dc.description.abstractIn this dissertation, a new framework that is based on employing the joint occurrence statistics of terms is proposed for termset selection and weighting. Each termset is evaluated by taking into account the simultaneous and individual occurrences of the terms within the termset. Based on the idea that the occurrence of one term but not the others may also convey valuable information for discrimination, the conventionally used term selection schemes are adapted to be employed for termset selection. Similarly, the weight of a given termset is computed as a function of the terms that occur in the document under concern. This weight estimation scheme allows evaluation of the individual occurrences of the terms and their co-occurrences separately so as to compute the document-specific weight of each termset. The proposed termset-based representation is concatenated with the bag-of-word approach to construct the document vectors. As an extension to the proposed scheme, the use of cardinality statistics of the termsets is also considered for termset weight computation. More specifically, the cardinality statistics of the termsets that quantifies the number of member terms that occur in the document under concern is used for termset weighting. When employing termsets of length greater than two, cardinality-based weighting is observed to provide further improvements. Keywords: Co-occurrence features, Cardinality statistics, Termset selection, Termset weighting, Document representation, Binary text classification.en_US
dc.description.abstractÖZ: Bu tezde, kelimelerin birlikte mevcudiyet istatistiklerine dayalı bir kelimeküme seçme ve ağırlıklandırma çerçevesi geliştirilmiştir. Her kelimeküme, içerdiği kelimelerin birlikte ve bağımsız olarak mevcudiyetleri dikkate alınarak değerlendirilmiştir. Bir kelimekümedeki kelimelerin sadece birinin mevcudiyetinin de ayırt edici değerli bilgi taşıyabileceği fikrinden yola çıkarak, geleneksel olarak kullanılan kelime seçme yöntemleri kelimeküme seçme amacıyla kullanılmak üzere güncellenmiştir. Benzer şekilde, verilen bir kelimekümenin ağırlığı, ilgili dökümanda yer alan kelimelerin bir fonksiyonu olarak tanımlanmıştır. Önerilen ağırlık kestirim yöntemi, kelimelerin tek başlarına ve birlikte mevcudiyetlerini ayrı ayrı değerlendirip dökümana bağlı ağırlıkların belirlenmesine olanak tanımaktadır. Önerilen kelimeküme-tabanlı gösterim ile kelime-çantası gösterimi birleştirilerek döküman vektörleri tanımlanmıştır. Önerilen yaklaşımın bir uzantısı olarak, kelimekümelerin ağırlıklarının hesaplanmasında eleman sayısı istatistiklerinin kullanımı üzerinde de çalışılmıştır. Daha belirgin bir ifadeyle, kelimekümeler içerisindeki mevcut kelimelerin toplam sayıları ile ilgili bilgi içeren kelime sayısı istatistikleri, kelimeküme ağırlıklandırılmasında kullanılmıştır. İki kelimeden daha uzun kelimekümeler kullanıldığında, eleman sayısı tabanlı ağırlıklandırmanın daha fazla iyileştirme sağladığı gözlenmiştir. Anahtar kelimeler: Birlikte mevcudiyet öznitelikleri, Eleman sayısı istatistikleri, Kelimküme seçme, Kelimeküme ağırlıklandırma, Döküman gösterimi, İkili metin sınıflandırmaen_US
dc.identifier.citationBadawi, Dima. (2015). Termset Selection and Weighting in Binary Text Classification. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus.en_US
dc.identifier.urihttps://hdl.handle.net/11129/2944
dc.language.isoen
dc.publisherEastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ)en_US
dc.relation.publicationcategoryTez
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectComputer Engineeringen_US
dc.subjectDatabase management - Data miningen_US
dc.subjectInformation storage and retrieval systemsen_US
dc.subjectText processing (Computer science)en_US
dc.subjectCo-occurrence featuresen_US
dc.subjectCardinality statisticsen_US
dc.subjectTermset selectionen_US
dc.subjectTermset weightingen_US
dc.subjectDocument representationen_US
dc.subjectBinary text classificationen_US
dc.titleTermset Selection and Weighting in Binary Text Classificationen_US
dc.typeDoctoral Thesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
BadawiDima.pdf
Size:
2.7 MB
Format:
Adobe Portable Document Format
Description:
Thesis, Doctoral

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.77 KB
Format:
Item-specific license agreed upon to submission
Description: