Chemical Named Entity Recognition using Undersampling and Classifier Ensembles

EMU I-REP

Show simple item record

dc.contributor.advisor Dimililer, Nazife (Co-Supervisor)
dc.contributor.advisor Varoğlu, Ekrem (Supervisor)
dc.contributor.author Akkasi, Abbas
dc.date.accessioned 2020-08-21T06:30:01Z
dc.date.available 2020-08-21T06:30:01Z
dc.date.issued 2016
dc.date.submitted 2016
dc.identifier.citation Akkasi, Abbas. (2016). Chemical Named Entity Recognition using Undersampling and Classifier Ensembles. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus. en_US
dc.identifier.uri http://hdl.handle.net/11129/4500
dc.description Doctor of Philosophy in Computer Engineering. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2016. Co-Supervisor: Assist. Prof. Dr. Nazife Dimililer and Supervisor: Assoc. Prof. Dr. Ekrem Varoğlu. en_US
dc.description.abstract Chemical Named Entity Recognition (ChemNER) is the first step for a large number of consequent Information Extraction (IE) tasks in the chemistry related sciences and drug development domains. Extraction of drug-drug interactions, chemical compounds‘ resolution, and creation of question answering systems are examples of such applications. Any improvement in the quality of NER process in this context may affect the performance of subsequent tasks which shows the importance of this preliminary step in IE applications. In this thesis we studied this problem by proposing a modular architecture to improve the performance of ChemNER systems. This thesis has three main contributions to the overall task. The first contribution is the design of a new rule based tokenizer which improves the quality of data preprocessing phase. Due to the highly imbalanced nature of the data used in the NER task, overall performance of the classifiers used is usually not as good as those used in some other common classification tasks. Hence, a new sentence based undersampling approach specifically to be used for the NER problems is proposed as the second contribution for the given problem. The proposed undersampling approach tries to remove the insignificant samples from the training data aiming at preserving the structure of the given sentences as much as possible. We name it as Balance Undersampling (BUS) approach since it tries to keep almost an equal number of negative samples surrounding the positives. The third contribution of this thesis is to use the Particle Swarm Optimization algorithm as a heuristic classifier selection method together with the Naïve Bayesian combination approach to form a classifier ensemble from a large pool of classifiers created using undersampled data with different sampling ratios and various feature sets. All experiments during this study are conducted using the BioCreative IV ChemDNER corpus which is the most comprehensive data set in the domain. en_US
dc.description.abstract ÖZ: Kimsayal Adlandırılmış Varlık Tanıma (KAVT) kimya ve eczacılık ile ilgili alanlarda bilgi çıkarımı öncesi yapılması gereken ilk işlemlerden biridir. İlaçlar arası etkileşimlerin çıkarılması, kimyasal bileşenlerin çözünürlüğünün ortaya çıkarılması ve otomatik soru-cevap sistemlerinin yapımı bu işlemlerden bazılarıdır. Bu sebepten dolatyı KAVT basamağında yapılacak tüm iyileştirmeler, takip eden sistemlerinin başarısını büyük ölçüde etkilemektedir. Bu tezde KAVT problemi ele alınmış ve KAVT sistemlerinin başarımını artırmak için birimsel bir mimari önerilmiştir. Bu anlamda tezin literatüre üç temel katkısı vardır. Birinci katkı olarak metin önişleme işlemleri sırasında performamsı artırmak için yeni bir kural-tabanlı alıntı ayırıcı önerilmiştir. KAVT işleminde kullanılan verinin doğal nedenlerle sınıflar arası dengesiz olmasından dolayı, sınıflandırıcıların başarımı genellikle yüksek olmamaktadır. Bu nedenle, ikinci katkı olarak cümle-tabanlı yeni bir alt-örnekleme yöntemi önerilmiştir. Önerilen yöntem, eğitme veri kümesinde bulunan önemsiz örnekleri cümlenin yapısını en az bozacak şekilde çalışmaktadır. Tüm olumlu örneklerin sağ ve sol taraflarından eşit miktarda olumsuz örneği eğitme veri kümesinden çıkardığı için önerilen yönteme Dengeli Alt-örnekleme (DAÖ) ismi verlimiştir. Üçüncü katkı ise, çoklu sınıflandırcı yöntemi kullanılmasıdır. Bu yöntemin kullanılmasında Parçacık Apaçık Eniyileme yöntemi algoritması sınıflandırıcı seçimi için kullanılmış, seçilen sınıflandırıcılar ise Bayesçi Birleştirme yöntemi ile birleştirilerek alt-örneklenmiş örnekler kullanılarak eğitilmiş büyük bir sınıflandırıcı topluluğu elde edilmiştir. Bu çalışmada, ilgili alanda en büyük bütünce olarak bilinen BioCreative IV ChemDNER bütüncesi kullanılmıştır. en_US
dc.language.iso eng en_US
dc.publisher Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ) en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject Data Mining (Computer Enginerring) en_US
dc.subject Data Processing en_US
dc.subject Chemical Named Entity Recognition en_US
dc.subject Tokenization en_US
dc.subject Undersampling en_US
dc.subject Classification en_US
dc.subject Classifier Ensemble en_US
dc.subject Particle Swarm Optimization en_US
dc.title Chemical Named Entity Recognition using Undersampling and Classifier Ensembles en_US
dc.type doctoralThesis en_US
dc.contributor.department Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record