A Comparative Analysis of Chemical Named Entity Recognition Using Support Vector Machines

EMU I-REP

Show simple item record

dc.contributor.advisor Varoğlu, Ekrem
dc.contributor.author Azari, Samaneh
dc.date.accessioned 2017-06-28T09:57:42Z
dc.date.available 2017-06-28T09:57:42Z
dc.date.issued 2013-09
dc.date.submitted 2013
dc.identifier.citation Azhari, Mohammad. (2013). A Comparative Analysis of Chemical Named Entity Recognition Using Support Vector Machines.Thesis (M.S.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus. en_US
dc.identifier.uri http://hdl.handle.net/11129/3332
dc.description Master of Science in Computer Engineering. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2013. Supervisor: Assoc. Prof. Dr. Ekrem Varoğlu. en_US
dc.description.abstract Cheminformatics is the synthesis of computer science and chemistry to collect knowledge about chemicals to provide useful information for drug development. Chemical named entity recognition (CHEM-NER) is the crucial first step to extract useful information from chemical publications and patents. In this dissertation, a classification system based on support vector machine (SVM) which uses wrapper based feature subset selection algorithms is proposed for the CHEM-NER task. The SVM classifier for recognizing chemical named entities needs training and evaluation corpora. Three different standard chemical corpora which contain different number of classes have been used to address the binary-class and multi-class classification problems. Wrapper based feature subset selection algorithms such as Forward Selection, Backward Selection and Simplified Forward Search are used in an attempt to find the most relevant subset of features among several features. The features used include several variations of morphological features, lexical features, orthographic features and spaces. The aim of these experiments is to investigate the classification performance using different subsets of features as well as discovering the most relevant corpus among the available corpora for CHEM-NER task. The results show that in general Forward Search algorithm is more successful in selecting the most suitable subset of features for the CHEM-NER task in terms of F-score measure. Keywords: Chemical Named Entity Recognition, Feature Extraction, Wrapper Based Feature Subset Selection, Support Vector Machines, Text Mining. en_US
dc.description.abstract ÖZ: Kemoinformatik, ilaç yapımında kullanılmak üzere kimyasallar hakkında gerekli bilgiyi elde etmek için bilgisayar bilimleri ve kimya anabilim dallarının sentezlenmesi ile ortaya çıkan bir alandır. Kimyasal İsimlendirilmiş Nesne (KİN) tanımı kimya alanında yapılan yayınlardan ve patentlerden bilgi çıkarmanın ilk adımını oluşturur. Bu tezde KİN için Vektör Destek Makineleri (VDM) tabanlı ve sarıcı yöntemlerine dayalı öznitelik alt kümesi seçme algoritmaları kullanılan bir sınıflandırıcı sistemi önerilmiştir. Kimyasal isimlendirilmş nesneleri tanımlamak için kullanılacak VDM sınıflandırıcısını eğitmek ve sistemin başarımını ölçmek için derlemlere ihtiyaç vardır. Bu çalışmada iki-sınıf ve çok-sınıf sınıflandırıcı problemlerini incelemek adına farklı sayıda sınıflar içeren üç farklı kimyasal isimler içeren derlem kullanılmıştır. Eniyi öznitelik alt kümesini elde edbilmek için sargı yöntemine dayalı algoritmalar olarak İleri Seçim, Geri Seçim ve Basitleştirilmiş İleri Seçim algoritmaları kullanılmıştır. Kullanılan öznitelikler çeşitli yapılarda morfolojik, sözlüksel, ortografik ve boşluklardan oluşmaktadır. Bu çalışmada yapılan deneylerin amacı farklı öznitelik alt kümeleri kullanılarak elde edilecek sınıflandırıcı başarılarını incelemenin yanısıra KİN için varolan en uygun derlemi ortaya çıkarmaktır. Sonuçlar İleri Seçim algoritmasının sınıflandırma başarımını en etkin şekilde artıran öznitelik kümesini göstermiştir. Anahtar Kelimeler: Kimyasal İsimlendirilmiş Nesne Tanımı, Öznitelik Çıkarma, Sarıcı Yöntemlerine Dayalı Öznitelik Alt Kümesi Seçme, Vektör Destek Makineleri, Metin Madenciliği. en_US
dc.language.iso eng en_US
dc.publisher Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ) en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject Computer Engineering en_US
dc.subject Drugs - Research - Data processing. en_US
dc.subject Chemical Named Entity Recognition en_US
dc.subject Feature Extraction en_US
dc.subject Wrapper Based Feature Subset Selection en_US
dc.subject Support Vector Machines en_US
dc.subject Text Mining en_US
dc.subject Cheminformatics en_US
dc.title A Comparative Analysis of Chemical Named Entity Recognition Using Support Vector Machines en_US
dc.type masterThesis en_US
dc.contributor.department Eastern Mediterranean University, Faculty of Engineering, Department of Computer Engineering en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record