DSpace
 

EMU I-REP >
02 Faculty of Engineering >
Department of Computer Engineering >
Theses (Master's and Ph.D) – Computer Engineering >

Please use this identifier to cite or link to this item: http://hdl.handle.net/11129/3332

Title: A Comparative Analysis of Chemical Named Entity Recognition Using Support Vector Machines
Authors: Varoğlu, Ekrem
Azari, Samaneh
Eastern Mediterranean University, Faculty of Engineering, Department of Computer Engineering
Keywords: Computer Engineering
Drugs - Research - Data processing.
Chemical Named Entity Recognition
Feature Extraction
Wrapper Based Feature Subset Selection
Support Vector Machines
Text Mining
Cheminformatics
Issue Date: Sep-2013
Publisher: Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ)
Citation: Azhari, Mohammad. (2013). A Comparative Analysis of Chemical Named Entity Recognition Using Support Vector Machines.Thesis (M.S.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus.
Abstract: Cheminformatics is the synthesis of computer science and chemistry to collect knowledge about chemicals to provide useful information for drug development. Chemical named entity recognition (CHEM-NER) is the crucial first step to extract useful information from chemical publications and patents. In this dissertation, a classification system based on support vector machine (SVM) which uses wrapper based feature subset selection algorithms is proposed for the CHEM-NER task. The SVM classifier for recognizing chemical named entities needs training and evaluation corpora. Three different standard chemical corpora which contain different number of classes have been used to address the binary-class and multi-class classification problems. Wrapper based feature subset selection algorithms such as Forward Selection, Backward Selection and Simplified Forward Search are used in an attempt to find the most relevant subset of features among several features. The features used include several variations of morphological features, lexical features, orthographic features and spaces. The aim of these experiments is to investigate the classification performance using different subsets of features as well as discovering the most relevant corpus among the available corpora for CHEM-NER task. The results show that in general Forward Search algorithm is more successful in selecting the most suitable subset of features for the CHEM-NER task in terms of F-score measure. Keywords: Chemical Named Entity Recognition, Feature Extraction, Wrapper Based Feature Subset Selection, Support Vector Machines, Text Mining.
ÖZ: Kemoinformatik, ilaç yapımında kullanılmak üzere kimyasallar hakkında gerekli bilgiyi elde etmek için bilgisayar bilimleri ve kimya anabilim dallarının sentezlenmesi ile ortaya çıkan bir alandır. Kimyasal İsimlendirilmiş Nesne (KİN) tanımı kimya alanında yapılan yayınlardan ve patentlerden bilgi çıkarmanın ilk adımını oluşturur. Bu tezde KİN için Vektör Destek Makineleri (VDM) tabanlı ve sarıcı yöntemlerine dayalı öznitelik alt kümesi seçme algoritmaları kullanılan bir sınıflandırıcı sistemi önerilmiştir. Kimyasal isimlendirilmş nesneleri tanımlamak için kullanılacak VDM sınıflandırıcısını eğitmek ve sistemin başarımını ölçmek için derlemlere ihtiyaç vardır. Bu çalışmada iki-sınıf ve çok-sınıf sınıflandırıcı problemlerini incelemek adına farklı sayıda sınıflar içeren üç farklı kimyasal isimler içeren derlem kullanılmıştır. Eniyi öznitelik alt kümesini elde edbilmek için sargı yöntemine dayalı algoritmalar olarak İleri Seçim, Geri Seçim ve Basitleştirilmiş İleri Seçim algoritmaları kullanılmıştır. Kullanılan öznitelikler çeşitli yapılarda morfolojik, sözlüksel, ortografik ve boşluklardan oluşmaktadır. Bu çalışmada yapılan deneylerin amacı farklı öznitelik alt kümeleri kullanılarak elde edilecek sınıflandırıcı başarılarını incelemenin yanısıra KİN için varolan en uygun derlemi ortaya çıkarmaktır. Sonuçlar İleri Seçim algoritmasının sınıflandırma başarımını en etkin şekilde artıran öznitelik kümesini göstermiştir. Anahtar Kelimeler: Kimyasal İsimlendirilmiş Nesne Tanımı, Öznitelik Çıkarma, Sarıcı Yöntemlerine Dayalı Öznitelik Alt Kümesi Seçme, Vektör Destek Makineleri, Metin Madenciliği.
Description: Master of Science in Computer Engineering. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2013. Supervisor: Assoc. Prof. Dr. Ekrem Varoğlu.
URI: http://hdl.handle.net/11129/3332
Appears in Collections:Theses (Master's and Ph.D) – Computer Engineering

Files in This Item:

File Description SizeFormat
AzariSamaneh.pdfThesis, Master1.1 MBAdobe PDFView/Open


This item is protected by original copyright

Recommend this item
View Statistics

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2010  Duraspace - Feedback