Feature Selection in High Dimensional Spaces

EMU I-REP

Show simple item record

dc.contributor.advisor Altınçay, Hakan
dc.contributor.author Sheikhi, Ghazaal
dc.date.accessioned 2022-03-11T06:13:02Z
dc.date.available 2022-03-11T06:13:02Z
dc.date.issued 2020
dc.date.submitted 2020-09
dc.identifier.citation Sheikhi, Ghazaal. (2020). Feature Selection in High Dimensional Spaces. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus. en_US
dc.identifier.uri http://hdl.handle.net/11129/5307
dc.description Doctor of Philosophy in Computer Engineering. Institute of Graduate Studies and Research. Thesis (Ph.D.) - Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2020. Supervisor: Prof. Dr. Hakan Altınçay. en_US
dc.description.abstract In this study, two novel filter feature selection approaches are proposed as alternatives to state-of-the-art. The first proposed approach is a greedy-based feature selection method where redundancy is replaced by diversity to quantify the complementarity of a candidate feature with respect to the already selected subset. Both relevance and diversity are computed in terms of the ranks of positive instances, which is analogous to the computation of the area under the receiver operating characteristic curve (AUC). In the second approach, a novel dissimilarity metric based on Feature-to-Feature (F2F) scatter frequencies is proposed for clustering-based filter feature selection. The proposed metric is computed by obtaining feature-dependent ranks of samples and identifying the features which assign close ranks to each sample. Samples are represented as a set of affinity sets containing features having rank differences within a predefined proximity window size. The F2F dissimilarity of a pair of features is computed using the frequency of their appearance in different affinity sets. Features are then clustered into distinct groups using F2F dissimilarity metric. From each cluster, the feature having the highest relevance score is selected. The experiments conducted on 10 UCI and microarray gene expression data sets have confirmed that the proposed feature selection approaches provide better performance scores when compared to other competing methods. The proposed method outperforms the widely-used mutual information-based schemes in terms of classification accuracy, AUC and stability. Keywords: feature selection, ranks of instances, relevance, diversity, dissimilarity, scatter frequency, representative feature. en_US
dc.description.abstract ÖZ: Bu çalışmada, en son teknolojiye alternatif olarak iki yeni öznitelik yaklaşımı seçme önerilmiştir. Önerilen ilk yaklaşım, seçilmiş olan alt kümeye göre bir aday özniteliğin tamamlayıcılığını ölçmek için artıklığı çeşitleme ile değiştiren özyineli bir öznitelik seçim yöntemidir. Hem ilgililik hem de çeşitlilik, alıcı çalışma karakteristik eğrisi (AUC) altındaki alanın hesaplanmasına benzer olan pozitif örneklerin sıralarına göre hesaplanır. İkinci yaklaşımda, kümeleme tabanlı filtre öznitelik seçimi için özniteliklar arası (F2F) dağılım frekanslarına dayanan yeni bir benzemezlik metriği önerilmektedir. Önerilen metrik, özniteliğe bağlı örnek grupları elde edilerek ve her bir örneğe yakın düzeyler atanan özniteliklerin tanımlanmasıyla hesaplanır. Örnekler, önceden tanımlanmış bir yakınlık penceresi boyutu içinde sıra farklılıklarına sahip öznitelikler içeren bir yakınlık kümesi olarak temsil edilir. Bir çift özniteliğın F2F benzemezliği, farklı benzesim kümelerinde görünümlerinin sıklığı kullanılarak hesaplanır. Özniteliklar daha sonra F2F benzemezlik metriği kullanılarak farklı gruplara kümelenir. Her kümeden, ilgililik düzeyi en yüksek olan öznitelik seçilir. 10 UCI ve mikrodizi gen ekspresyon veri setleri üzerinde yapılan deneyler, önerilen öznitelik seçim yaklaşımlarının diğer rakip yöntemlere kıyasla daha iyi performans skorları sağladığını göstermiştir. Önerilen yöntem, sınıflandırma doğruluğu, AUC ve kararlılık açısından yaygın olarak kullanılan karşılıklı bilgi tabanlı tekniklerdan daha iyi performans göstermektedir. Anahtar Kelimeler: öznitelik seçimi, örnek sıraları, ilgililik, çeşitlilik, farklılık, benzemezlik dağılım frekansı, temsilcisi öznitelik. en_US
dc.language.iso eng en_US
dc.publisher Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ) en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject Computer Engineering en_US
dc.subject Data mining--Data Acquisition and Storage en_US
dc.subject Information storage and retrieval systems en_US
dc.subject Text Categorization--Text Classification en_US
dc.subject Text processing (Computer science) en_US
dc.subject Data in computer systems en_US
dc.subject Feature selection en_US
dc.subject ranks of instances en_US
dc.subject relevance en_US
dc.subject diversity en_US
dc.subject dissimilarity en_US
dc.subject scatter frequency en_US
dc.subject representative feature en_US
dc.title Feature Selection in High Dimensional Spaces en_US
dc.type doctoralThesis en_US
dc.contributor.department Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record