DSpace
 

EMU I-REP >
02 Faculty of Engineering >
Department of Computer Engineering >
Theses (Master's and Ph.D) – Computer Engineering >

Please use this identifier to cite or link to this item: http://hdl.handle.net/11129/4048

Title: Comparison of Wrapper Based Feature Selection and Classifier Selection Methods for Drug Named Entity Recognition
Authors: Varoğlu, Ekrem
Razavi, Saman Sharifian
Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering
Keywords: Computer Engineering
Bioinformatics-Computational Biology
Information storage and retrieval systems
Data Processing
Biomedical Text Mining
Drug Name Entity Recognition
Feature Selection
Ranked-Weighted Majority Voting
Classifier Selection
Machine Learning
Support Vector Machines
Conditional Random Fields
Issue Date: Feb-2015
Publisher: Eastern Mediterranean University EMU
Citation: Razavi, Saman Sharifian. (2015). Comparison of Wrapper Based Feature Selection and Classifier Selection Methods for Drug Named Entity Recognition. Thesis (M.S.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus.
Abstract: Bioinformatics is a new yet quickly evolving interdisciplinary field that combines different other branches of science like biology and computer science. This field of science mainly relates to the process of extracting, categorizing and finally analyzing relevant biological data from large and not organized sources of information available. In this thesis, two machine-learning approaches, namely SVM and CRF have been performed for the recognition and classification of drugs and chemicals. These tasks are named as DrugNER and DrugNEC and have gained significant attention from the biomedical text mining community in recent years. Train and test datasets used in this work are derived from The DDI Corpus [1]. Three groups of features, morphological, lexical and orthographic are used. Wrapper based feature selection methods are used to find an optimal feature ensemble. In addition, wrapped based classifier selection algorithms are used in order to find an optimal set of classifiers from a large pool of CRF and SVM based classifiers. Results of both approaches have been compared. Finally a new majority voting algorithm, referred to as ranked-weighted majority voting is proposed and used during the combination of classifiers. Keywords: Biomedical Text Mining, Drug Name Entity Recognition, Feature Selection, Ranked-Weighted Majority Voting, Classifier Selection, Machine Learning, Support Vector Machines, Conditional Random Fields.
ÖZ: Biyoi-bilişim yeni ve ayni zamanda hızla gelişen,biyoloji ve bilgisayar bilimleri alanlarını birleştiren multidisipliner bir alandır. Çoğunlukla iyi organize edilmemiş, büyük very kaynaklardan biyolojik bilginin çıkarılması, sınıflandırılması ve analiz edilmesi ile ilgilenen bir alandır. Bu tezde, otomatik öğrenmeye dayalı sınıflandırcılar olan Vektör Destek Makineleri (VDM) ve Koşullu Rastegele Alanlar (KRA) sınıflandırıcıları kullanılarak kimyasal ve ilaç isimlerinin metinden çıkarılarak sınıflandırılması yapılmıştır. İlaç İsimlendirilmiş Nesne Tanıma ve Sınıflandırılması diye tanımlanan bu işlemler biyo-medikal veri madenciliği alanında son yıllarda araştırmacıların büyük ilgisini çekmiştir. Bu çalışmada kullanılan eğitim kümesi ve test kümesi DDI Bütünce’sinden [1] üretilmiştir. Çeşitli yapılarda morfolojik, sözlüksel, ve ortografik öznitelikler kullanılmıştır. En iyi öznitelik alt kümesini elde edebilmek için sargı yöntemine dayalı algoritmalar olarak İleri Seçim, ve algoritmaları kullanılmıştır. Buna ilave olarak en iyi sınıflandırıcı alt kümesini bulmak için de ayni algoritmalar denenmiştir. Her iki yöntemin sonuçları çalışmada karşılaştırılmıştır. Son olarak, sınıflandırıcıların birleştirilmesinde ağırlık katmanlı çoğunluk oylama diye adlandırılmış yeni bir çoğunluk oylama yöntemi önerilmiştir. Anahtar kelimeler: Biyo-medikal Metin Madenciliği, İlaç İsimlendirilmiş Nesne Tanıma, Öznitelik Seçme, Ağırlık Katmanlı Çoğunluk Oylama, Sınıflandırıcı Seçme, Otomatik Öğrenme, Vektör Destek Makineleri, Koşullu Rastegele Alanlar.
Description: Master of Science in Computer Engineering. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2015. Supervisor: Assoc. Prof. Dr. Ekrem Varoğlu.
URI: http://hdl.handle.net/11129/4048
Appears in Collections:Theses (Master's and Ph.D) – Computer Engineering

Files in This Item:

File Description SizeFormat
RazaviSaman.pdfThesis, Master2.07 MBAdobe PDFView/Open


This item is protected by original copyright

Recommend this item
View Statistics

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2010  Duraspace - Feedback