Chemical Named Entity Recognition using Undersampling and Classifier Ensembles

dc.contributor.advisorDimililer, Nazife (Co-Supervisor)
dc.contributor.advisorVaroğlu, Ekrem (Supervisor)
dc.contributor.authorAkkasi, Abbas
dc.date.accessioned2020-08-21T06:30:01Z
dc.date.available2020-08-21T06:30:01Z
dc.date.issued2016
dc.date.submitted2016
dc.departmentEastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineeringen_US
dc.descriptionDoctor of Philosophy in Computer Engineering. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2016. Co-Supervisor: Assist. Prof. Dr. Nazife Dimililer and Supervisor: Assoc. Prof. Dr. Ekrem Varoğlu.en_US
dc.description.abstractChemical Named Entity Recognition (ChemNER) is the first step for a large number of consequent Information Extraction (IE) tasks in the chemistry related sciences and drug development domains. Extraction of drug-drug interactions, chemical compounds‘ resolution, and creation of question answering systems are examples of such applications. Any improvement in the quality of NER process in this context may affect the performance of subsequent tasks which shows the importance of this preliminary step in IE applications. In this thesis we studied this problem by proposing a modular architecture to improve the performance of ChemNER systems. This thesis has three main contributions to the overall task. The first contribution is the design of a new rule based tokenizer which improves the quality of data preprocessing phase. Due to the highly imbalanced nature of the data used in the NER task, overall performance of the classifiers used is usually not as good as those used in some other common classification tasks. Hence, a new sentence based undersampling approach specifically to be used for the NER problems is proposed as the second contribution for the given problem. The proposed undersampling approach tries to remove the insignificant samples from the training data aiming at preserving the structure of the given sentences as much as possible. We name it as Balance Undersampling (BUS) approach since it tries to keep almost an equal number of negative samples surrounding the positives. The third contribution of this thesis is to use the Particle Swarm Optimization algorithm as a heuristic classifier selection method together with the Naïve Bayesian combination approach to form a classifier ensemble from a large pool of classifiers created using undersampled data with different sampling ratios and various feature sets. All experiments during this study are conducted using the BioCreative IV ChemDNER corpus which is the most comprehensive data set in the domain.en_US
dc.description.abstractÖZ: Kimsayal Adlandırılmış Varlık Tanıma (KAVT) kimya ve eczacılık ile ilgili alanlarda bilgi çıkarımı öncesi yapılması gereken ilk işlemlerden biridir. İlaçlar arası etkileşimlerin çıkarılması, kimyasal bileşenlerin çözünürlüğünün ortaya çıkarılması ve otomatik soru-cevap sistemlerinin yapımı bu işlemlerden bazılarıdır. Bu sebepten dolatyı KAVT basamağında yapılacak tüm iyileştirmeler, takip eden sistemlerinin başarısını büyük ölçüde etkilemektedir. Bu tezde KAVT problemi ele alınmış ve KAVT sistemlerinin başarımını artırmak için birimsel bir mimari önerilmiştir. Bu anlamda tezin literatüre üç temel katkısı vardır. Birinci katkı olarak metin önişleme işlemleri sırasında performamsı artırmak için yeni bir kural-tabanlı alıntı ayırıcı önerilmiştir. KAVT işleminde kullanılan verinin doğal nedenlerle sınıflar arası dengesiz olmasından dolayı, sınıflandırıcıların başarımı genellikle yüksek olmamaktadır. Bu nedenle, ikinci katkı olarak cümle-tabanlı yeni bir alt-örnekleme yöntemi önerilmiştir. Önerilen yöntem, eğitme veri kümesinde bulunan önemsiz örnekleri cümlenin yapısını en az bozacak şekilde çalışmaktadır. Tüm olumlu örneklerin sağ ve sol taraflarından eşit miktarda olumsuz örneği eğitme veri kümesinden çıkardığı için önerilen yönteme Dengeli Alt-örnekleme (DAÖ) ismi verlimiştir. Üçüncü katkı ise, çoklu sınıflandırcı yöntemi kullanılmasıdır. Bu yöntemin kullanılmasında Parçacık Apaçık Eniyileme yöntemi algoritması sınıflandırıcı seçimi için kullanılmış, seçilen sınıflandırıcılar ise Bayesçi Birleştirme yöntemi ile birleştirilerek alt-örneklenmiş örnekler kullanılarak eğitilmiş büyük bir sınıflandırıcı topluluğu elde edilmiştir. Bu çalışmada, ilgili alanda en büyük bütünce olarak bilinen BioCreative IV ChemDNER bütüncesi kullanılmıştır.en_US
dc.identifier.citationAkkasi, Abbas. (2016). Chemical Named Entity Recognition using Undersampling and Classifier Ensembles. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus.en_US
dc.identifier.urihttps://hdl.handle.net/11129/4500
dc.language.isoen
dc.publisherEastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ)en_US
dc.relation.publicationcategoryTez
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectData Mining (Computer Enginerring)en_US
dc.subjectData Processingen_US
dc.subjectChemical Named Entity Recognitionen_US
dc.subjectTokenizationen_US
dc.subjectUndersamplingen_US
dc.subjectClassificationen_US
dc.subjectClassifier Ensembleen_US
dc.subjectParticle Swarm Optimizationen_US
dc.titleChemical Named Entity Recognition using Undersampling and Classifier Ensemblesen_US
dc.typeDoctoral Thesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
akkasiabbas.pdf
Size:
3.16 MB
Format:
Adobe Portable Document Format
Description:
Thesis, Doctoral

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.77 KB
Format:
Item-specific license agreed upon to submission
Description: