|
EMU I-REP >
02 Faculty of Engineering >
Department of Computer Engineering >
Theses (Master's and Ph.D) – Computer Engineering >
Please use this identifier to cite or link to this item:
http://hdl.handle.net/11129/4048
|
Title: | Comparison of Wrapper Based Feature Selection and Classifier Selection Methods for Drug Named Entity Recognition |
Authors: | Varoğlu, Ekrem Razavi, Saman Sharifian Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering |
Keywords: | Computer Engineering Bioinformatics-Computational Biology Information storage and retrieval systems Data Processing Biomedical Text Mining Drug Name Entity Recognition Feature Selection Ranked-Weighted Majority Voting Classifier Selection Machine Learning Support Vector Machines Conditional Random Fields |
Issue Date: | Feb-2015 |
Publisher: | Eastern Mediterranean University EMU |
Citation: | Razavi, Saman Sharifian. (2015). Comparison of Wrapper Based Feature Selection and Classifier Selection Methods for Drug Named Entity Recognition. Thesis (M.S.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus. |
Abstract: | Bioinformatics is a new yet quickly evolving interdisciplinary field that combines different other branches of science like biology and computer science. This field of science mainly relates to the process of extracting, categorizing and finally analyzing relevant biological data from large and not organized sources of information available. In this thesis, two machine-learning approaches, namely SVM and CRF have been performed for the recognition and classification of drugs and chemicals. These tasks are named as DrugNER and DrugNEC and have gained significant attention from the biomedical text mining community in recent years. Train and test datasets used in this work are derived from The DDI Corpus [1]. Three groups of features, morphological, lexical and orthographic are used. Wrapper based feature selection methods are used to find an optimal feature ensemble. In addition, wrapped based classifier selection algorithms are used in order to find an optimal set of classifiers from a large pool of CRF and SVM based classifiers. Results of both approaches have been compared. Finally a new majority voting algorithm, referred to as ranked-weighted majority voting is proposed and used during the combination of classifiers.
Keywords: Biomedical Text Mining, Drug Name Entity Recognition, Feature Selection, Ranked-Weighted Majority Voting, Classifier Selection, Machine Learning, Support Vector Machines, Conditional Random Fields. ÖZ:
Biyoi-bilişim yeni ve ayni zamanda hızla gelişen,biyoloji ve bilgisayar bilimleri alanlarını birleştiren multidisipliner bir alandır. Çoğunlukla iyi organize edilmemiş, büyük very kaynaklardan biyolojik bilginin çıkarılması, sınıflandırılması ve analiz edilmesi ile ilgilenen bir alandır. Bu tezde, otomatik öğrenmeye dayalı sınıflandırcılar olan Vektör Destek Makineleri (VDM) ve Koşullu Rastegele Alanlar (KRA) sınıflandırıcıları kullanılarak kimyasal ve ilaç isimlerinin metinden çıkarılarak sınıflandırılması yapılmıştır. İlaç İsimlendirilmiş Nesne Tanıma ve Sınıflandırılması diye tanımlanan bu işlemler biyo-medikal veri madenciliği alanında son yıllarda araştırmacıların büyük ilgisini çekmiştir. Bu çalışmada kullanılan eğitim kümesi ve test kümesi DDI Bütünce’sinden [1] üretilmiştir. Çeşitli yapılarda morfolojik, sözlüksel, ve ortografik öznitelikler kullanılmıştır. En iyi öznitelik alt kümesini elde edebilmek için sargı yöntemine dayalı algoritmalar olarak İleri Seçim, ve algoritmaları kullanılmıştır. Buna ilave olarak en iyi sınıflandırıcı alt kümesini bulmak için de ayni algoritmalar denenmiştir. Her iki yöntemin sonuçları çalışmada karşılaştırılmıştır. Son olarak, sınıflandırıcıların birleştirilmesinde ağırlık katmanlı çoğunluk oylama diye adlandırılmış yeni bir çoğunluk oylama yöntemi önerilmiştir.
Anahtar kelimeler: Biyo-medikal Metin Madenciliği, İlaç İsimlendirilmiş Nesne Tanıma, Öznitelik Seçme, Ağırlık Katmanlı Çoğunluk Oylama, Sınıflandırıcı Seçme, Otomatik Öğrenme, Vektör Destek Makineleri, Koşullu Rastegele Alanlar. |
Description: | Master of Science in Computer Engineering. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2015. Supervisor: Assoc. Prof. Dr. Ekrem Varoğlu. |
URI: | http://hdl.handle.net/11129/4048 |
Appears in Collections: | Theses (Master's and Ph.D) – Computer Engineering
|
This item is protected by original copyright
|
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
|