DSpace
 

EMU I-REP >
02 Faculty of Engineering >
Department of Computer Engineering >
Theses (Master's and Ph.D) – Computer Engineering >

Please use this identifier to cite or link to this item: http://hdl.handle.net/11129/4500

Title: Chemical Named Entity Recognition using Undersampling and Classifier Ensembles
Authors: Dimililer, Nazife (Co-Supervisor)
Varoğlu, Ekrem (Supervisor)
Akkasi, Abbas
Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering
Keywords: Data Mining (Computer Enginerring)
Data Processing
Chemical Named Entity Recognition
Tokenization
Undersampling
Classification
Classifier Ensemble
Particle Swarm Optimization
Issue Date: 2016
Publisher: Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ)
Citation: Akkasi, Abbas. (2016). Chemical Named Entity Recognition using Undersampling and Classifier Ensembles. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus.
Abstract: Chemical Named Entity Recognition (ChemNER) is the first step for a large number of consequent Information Extraction (IE) tasks in the chemistry related sciences and drug development domains. Extraction of drug-drug interactions, chemical compounds‘ resolution, and creation of question answering systems are examples of such applications. Any improvement in the quality of NER process in this context may affect the performance of subsequent tasks which shows the importance of this preliminary step in IE applications. In this thesis we studied this problem by proposing a modular architecture to improve the performance of ChemNER systems. This thesis has three main contributions to the overall task. The first contribution is the design of a new rule based tokenizer which improves the quality of data preprocessing phase. Due to the highly imbalanced nature of the data used in the NER task, overall performance of the classifiers used is usually not as good as those used in some other common classification tasks. Hence, a new sentence based undersampling approach specifically to be used for the NER problems is proposed as the second contribution for the given problem. The proposed undersampling approach tries to remove the insignificant samples from the training data aiming at preserving the structure of the given sentences as much as possible. We name it as Balance Undersampling (BUS) approach since it tries to keep almost an equal number of negative samples surrounding the positives. The third contribution of this thesis is to use the Particle Swarm Optimization algorithm as a heuristic classifier selection method together with the Naïve Bayesian combination approach to form a classifier ensemble from a large pool of classifiers created using undersampled data with different sampling ratios and various feature sets. All experiments during this study are conducted using the BioCreative IV ChemDNER corpus which is the most comprehensive data set in the domain.
ÖZ: Kimsayal Adlandırılmış Varlık Tanıma (KAVT) kimya ve eczacılık ile ilgili alanlarda bilgi çıkarımı öncesi yapılması gereken ilk işlemlerden biridir. İlaçlar arası etkileşimlerin çıkarılması, kimyasal bileşenlerin çözünürlüğünün ortaya çıkarılması ve otomatik soru-cevap sistemlerinin yapımı bu işlemlerden bazılarıdır. Bu sebepten dolatyı KAVT basamağında yapılacak tüm iyileştirmeler, takip eden sistemlerinin başarısını büyük ölçüde etkilemektedir. Bu tezde KAVT problemi ele alınmış ve KAVT sistemlerinin başarımını artırmak için birimsel bir mimari önerilmiştir. Bu anlamda tezin literatüre üç temel katkısı vardır. Birinci katkı olarak metin önişleme işlemleri sırasında performamsı artırmak için yeni bir kural-tabanlı alıntı ayırıcı önerilmiştir. KAVT işleminde kullanılan verinin doğal nedenlerle sınıflar arası dengesiz olmasından dolayı, sınıflandırıcıların başarımı genellikle yüksek olmamaktadır. Bu nedenle, ikinci katkı olarak cümle-tabanlı yeni bir alt-örnekleme yöntemi önerilmiştir. Önerilen yöntem, eğitme veri kümesinde bulunan önemsiz örnekleri cümlenin yapısını en az bozacak şekilde çalışmaktadır. Tüm olumlu örneklerin sağ ve sol taraflarından eşit miktarda olumsuz örneği eğitme veri kümesinden çıkardığı için önerilen yönteme Dengeli Alt-örnekleme (DAÖ) ismi verlimiştir. Üçüncü katkı ise, çoklu sınıflandırcı yöntemi kullanılmasıdır. Bu yöntemin kullanılmasında Parçacık Apaçık Eniyileme yöntemi algoritması sınıflandırıcı seçimi için kullanılmış, seçilen sınıflandırıcılar ise Bayesçi Birleştirme yöntemi ile birleştirilerek alt-örneklenmiş örnekler kullanılarak eğitilmiş büyük bir sınıflandırıcı topluluğu elde edilmiştir. Bu çalışmada, ilgili alanda en büyük bütünce olarak bilinen BioCreative IV ChemDNER bütüncesi kullanılmıştır.
Description: Doctor of Philosophy in Computer Engineering. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2016. Co-Supervisor: Assist. Prof. Dr. Nazife Dimililer and Supervisor: Assoc. Prof. Dr. Ekrem Varoğlu.
URI: http://hdl.handle.net/11129/4500
Appears in Collections:Theses (Master's and Ph.D) – Computer Engineering

Files in This Item:

File Description SizeFormat
akkasiabbas.pdfThesis, Doctoral3.23 MBAdobe PDFView/Open


This item is protected by original copyright

Recommend this item
View Statistics

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2010  Duraspace - Feedback