A Comparative Analysis of Chemical Named Entity Recognition Using Support Vector Machines

dc.contributor.advisorVaroğlu, Ekrem
dc.contributor.authorAzari, Samaneh
dc.date.accessioned2017-06-28T09:57:42Z
dc.date.available2017-06-28T09:57:42Z
dc.date.issued2013-09
dc.date.submitted2013
dc.departmentEastern Mediterranean University, Faculty of Engineering, Department of Computer Engineeringen_US
dc.descriptionMaster of Science in Computer Engineering. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2013. Supervisor: Assoc. Prof. Dr. Ekrem Varoğlu.en_US
dc.description.abstractCheminformatics is the synthesis of computer science and chemistry to collect knowledge about chemicals to provide useful information for drug development. Chemical named entity recognition (CHEM-NER) is the crucial first step to extract useful information from chemical publications and patents. In this dissertation, a classification system based on support vector machine (SVM) which uses wrapper based feature subset selection algorithms is proposed for the CHEM-NER task. The SVM classifier for recognizing chemical named entities needs training and evaluation corpora. Three different standard chemical corpora which contain different number of classes have been used to address the binary-class and multi-class classification problems. Wrapper based feature subset selection algorithms such as Forward Selection, Backward Selection and Simplified Forward Search are used in an attempt to find the most relevant subset of features among several features. The features used include several variations of morphological features, lexical features, orthographic features and spaces. The aim of these experiments is to investigate the classification performance using different subsets of features as well as discovering the most relevant corpus among the available corpora for CHEM-NER task. The results show that in general Forward Search algorithm is more successful in selecting the most suitable subset of features for the CHEM-NER task in terms of F-score measure. Keywords: Chemical Named Entity Recognition, Feature Extraction, Wrapper Based Feature Subset Selection, Support Vector Machines, Text Mining.en_US
dc.description.abstractÖZ: Kemoinformatik, ilaç yapımında kullanılmak üzere kimyasallar hakkında gerekli bilgiyi elde etmek için bilgisayar bilimleri ve kimya anabilim dallarının sentezlenmesi ile ortaya çıkan bir alandır. Kimyasal İsimlendirilmiş Nesne (KİN) tanımı kimya alanında yapılan yayınlardan ve patentlerden bilgi çıkarmanın ilk adımını oluşturur. Bu tezde KİN için Vektör Destek Makineleri (VDM) tabanlı ve sarıcı yöntemlerine dayalı öznitelik alt kümesi seçme algoritmaları kullanılan bir sınıflandırıcı sistemi önerilmiştir. Kimyasal isimlendirilmş nesneleri tanımlamak için kullanılacak VDM sınıflandırıcısını eğitmek ve sistemin başarımını ölçmek için derlemlere ihtiyaç vardır. Bu çalışmada iki-sınıf ve çok-sınıf sınıflandırıcı problemlerini incelemek adına farklı sayıda sınıflar içeren üç farklı kimyasal isimler içeren derlem kullanılmıştır. Eniyi öznitelik alt kümesini elde edbilmek için sargı yöntemine dayalı algoritmalar olarak İleri Seçim, Geri Seçim ve Basitleştirilmiş İleri Seçim algoritmaları kullanılmıştır. Kullanılan öznitelikler çeşitli yapılarda morfolojik, sözlüksel, ortografik ve boşluklardan oluşmaktadır. Bu çalışmada yapılan deneylerin amacı farklı öznitelik alt kümeleri kullanılarak elde edilecek sınıflandırıcı başarılarını incelemenin yanısıra KİN için varolan en uygun derlemi ortaya çıkarmaktır. Sonuçlar İleri Seçim algoritmasının sınıflandırma başarımını en etkin şekilde artıran öznitelik kümesini göstermiştir. Anahtar Kelimeler: Kimyasal İsimlendirilmiş Nesne Tanımı, Öznitelik Çıkarma, Sarıcı Yöntemlerine Dayalı Öznitelik Alt Kümesi Seçme, Vektör Destek Makineleri, Metin Madenciliği.en_US
dc.identifier.citationAzhari, Mohammad. (2013). A Comparative Analysis of Chemical Named Entity Recognition Using Support Vector Machines.Thesis (M.S.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus.en_US
dc.identifier.urihttps://hdl.handle.net/11129/3332
dc.language.isoen
dc.publisherEastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ)en_US
dc.relation.publicationcategoryTez
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectComputer Engineeringen_US
dc.subjectDrugs - Research - Data processing.en_US
dc.subjectChemical Named Entity Recognitionen_US
dc.subjectFeature Extractionen_US
dc.subjectWrapper Based Feature Subset Selectionen_US
dc.subjectSupport Vector Machinesen_US
dc.subjectText Miningen_US
dc.subjectCheminformaticsen_US
dc.titleA Comparative Analysis of Chemical Named Entity Recognition Using Support Vector Machinesen_US
dc.typeMaster Thesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
AzariSamaneh.pdf
Size:
1.07 MB
Format:
Adobe Portable Document Format
Description:
Thesis, Master

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.77 KB
Format:
Item-specific license agreed upon to submission
Description: