Novel Approaches for Relation Extraction in Biomedical Domain

EMU I-REP

Show simple item record

dc.contributor.advisor Dimililer, Nazife (Co-Supervisor)
dc.contributor.advisor Akkeleş, Arif (Supervisor)
dc.contributor.author Onye, Stanley Chika
dc.date.accessioned 2022-02-16T07:29:25Z
dc.date.available 2022-02-16T07:29:25Z
dc.date.issued 2018
dc.date.submitted 2018-11
dc.identifier.citation Onye, Stanley Chika. (2018). Novel Approaches for Relation Extraction in Biomedical Domain. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Mathematics, Famagusta: North Cyprus. en_US
dc.identifier.uri http://hdl.handle.net/11129/5282
dc.description Doctor of Philosophy in Applied Mathematics and Computer Science. Thesis (Ph.D.)--Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics, 2018. Co-Supervisor: Assist. Prof. Dr. Nazife Dimililer and Supervisor: Assist. Prof. Dr. Arif Akkeleş. en_US
dc.description.abstract Relation extraction an important field in Biomedical Natural Language Processing is the study of identifying relations between entity mentions. The extraction of relation instances over multiple sentence mention levels (intra- and inter-sentence levels) has been a challenge. In the intra-sentence level, the mention of a pair of entity is found in a single sentence, whereas in the inter-sentence level, they are found in spanning neighbouring sentences. The variations in the level of extractable information and performance from these levels have been a reason for this challenge. In this thesis, we tackled this challenge by carefully examining the stages of text processing and relation instance construction of the candidate relation instances across the multiple sentence levels and further performed a combination of the relation instances over these mention levels in order improve the performance of the system. In the text processing stage, we performed sentence simplification after the sentences have been segmented in order to improve the information extracted through a dependency parse tree. During the extraction of the candidate relation instances, we applied some sentence structures and rules to help improve the level of the types of candidates selected. We performed relation extraction using two systems. We developed a system that employs an optimization technique namely genetic algorithm, to combine the output of the classifiers trained using the candidate relation instances from both levels. We introduce the novel approach of using two decision-making under uncertainty techniques for our classifier selection. The other system is based on an ensemble of two machine learning algorithms. We performed relation extraction by employing the candidate relation instances from the two levels in two forms. Firstly, the instances are merged after they have been classified individually, and secondly, the instances are merged before the classification. The system then introduces the novel use of a maximum probability-based voting algorithm to combine the results generated from these two forms. All the experiments in this study are performed using the BioCreative V chemical disease relation dataset which is the most comprehensive dataset in the domain. Keywords: Classifier Ensemble, Decision-Making Techniques, Genetic Algorithms, Optimization Techniques, Relation Extraction, Text Mining. en_US
dc.description.abstract ÖZ: Text içerisinde geçen varlıklar arasındaki ilişkileri bulmayı hedefleyen ilişki çıkarımı biyomedikal doğal dil işleme konusundaki önemli alanlardan biridir. İki varlık arasındaki ilişki tek bir cümle içerisinde tanımlanabileceği gibi, birbiriyle komşu iki veya daha fazla cümle ile de tanımlanabilir. Tek bir cümle içerisinde tanımlanan ilişkiler için “cümle-içi”, tanımı komşu iki veya daha fazla cümle ile yapılan ilişkilere “cümleler-arası” ilişki terimleri kullanılmıştır. Cümle-içi ve cümleler-arası seviyelerde ilişkilerin çıkarımını yapmak, her iki seviyede elde edilen bilgilerin içerik ve miktar olarak farklı olması nedeniyle zorluk çıkarmaktadır. Çalışmamızde, her iki seviyedeki aday ilişki örneklerinin oluşturulması için metin işleme ve ilişki örneği oluşturma aşamalarını dikkatle inceleyerek ve akabinde performansın daha da iyileştirilmesi için her iki seviyede tahmin edilmiş olan ilişki örneklerini sınıflayıcı kombinasyonları kullanılarak birleştirmek suretiyle bu zorluk aşılmıştır. Metin işleme aşamasında, metin cümlelere bölündükten sonra cümle basitleştirilmesi uygulanarak bağımlılık ayrıştırma ağacından çıkarılacak bilgilerin iyileştirilmesi sağlanmıştır. Aday ilişki örneklerinin çıkarılması sırasında, anlamlı ve doğru ilişki adayları seçebilmek için bazı kurallar ve cümle yapıları uygulanmıştır. Tez kapsamında ilişki çıkarımı için iki ayrı sistem geliştirilmiştir. Geliştirilen ilk sistemde, her iki cümle seviyesindeki aday ilişki örnekleri ile eğitilen sınıflandırıcıların çıktıları eniyileme yöntemi ile birleştirmektedir. Eniyileştirme tekniği olarak genetik algoritma ve yenilik olarak sınıflandırıcı seçimi için belirsizlik teknikleri altında iki karar verme yaklaşımı kullanıldı. Geliştirilen diğer makine öğrenimi sistemimizde, ilişki adayları cümle-içi ve cümleler arası seviyede ayrı ayrı derlenmiş ve bu iki veri kümesi birleştirilerek tüm ilişki adaylarını içeren üçüncü bir veri kümesi oluşturulmuştur. Bu şekilde oluşturulan üç veri seti ayrı ayrı iki makine öğrenimi algoritması kombinasyonunun eğitilmesi için kullanılmıştır. Bu aşamadan sonra tüm ilişki adayları kullanılarak eğitilen sistemin çıktısı ile cümle-içi ve cümleler-arası seviyelerinde eğitilen sınıflandırıcılarının çıktılarının birleşimi maximum probability voting algoritması kullanılarak birleştirilmiştir. İkinci sistemde sunulan yenilik farklı seviyelerin bu şekilde sınıflandırıcı kombinasyonları kullanılarak birleştirilmesidir. Bu çalışmadaki tüm deneyler, alandaki en kapsamlı veri kümesi olan BioCreative V kimyasal hastalık ilişkisi veri kümesi kullanılarak gerçekleştirilmiştir. Anahtar Kelimeler: Eniyileştirme Teknikleri, Genetik Algoritmalar, İlişkisel Çıkarım, Karar Verme Teknikleri, Metin Madenciliği, Sınıflandırıcı Topluluğu en_US
dc.language.iso eng en_US
dc.publisher Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ) en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject Mathematics en_US
dc.subject Applied Mathematics and Computer Science en_US
dc.subject Natural language processing (Computer science) en_US
dc.subject Data mining en_US
dc.subject Computational linguistics en_US
dc.subject Biomedical literature en_US
dc.subject Computational linguistics--Mathematical models en_US
dc.subject Classifier Ensemble en_US
dc.subject Decision-Making Techniques en_US
dc.subject Genetic Algorithms en_US
dc.subject Optimization Techniques en_US
dc.subject Relation Extraction en_US
dc.subject Text Mining en_US
dc.title Novel Approaches for Relation Extraction in Biomedical Domain en_US
dc.type doctoralThesis en_US
dc.contributor.department Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record