Relation extraction an important field in Biomedical Natural Language Processing is the study of identifying relations between entity mentions. The extraction of relation instances over multiple sentence mention levels (intra- and inter-sentence levels) has been a challenge. In the intra-sentence level, the mention of a pair of entity is found in a single sentence, whereas in the inter-sentence level, they are found in spanning neighbouring sentences. The variations in the level of extractable information and performance from these levels have been a reason for this challenge.
In this thesis, we tackled this challenge by carefully examining the stages of text processing and relation instance construction of the candidate relation instances across the multiple sentence levels and further performed a combination of the relation instances over these mention levels in order improve the performance of the system. In the text processing stage, we performed sentence simplification after the sentences have been segmented in order to improve the information extracted through a dependency parse tree. During the extraction of the candidate relation instances, we applied some sentence structures and rules to help improve the level of the types of candidates selected.
We performed relation extraction using two systems. We developed a system that employs an optimization technique namely genetic algorithm, to combine the output of the classifiers trained using the candidate relation instances from both levels. We introduce the novel approach of using two decision-making under uncertainty techniques for our classifier selection. The other system is based on an ensemble of
two machine learning algorithms. We performed relation extraction by employing the candidate relation instances from the two levels in two forms. Firstly, the instances are merged after they have been classified individually, and secondly, the instances are merged before the classification. The system then introduces the novel use of a maximum probability-based voting algorithm to combine the results generated from these two forms. All the experiments in this study are performed using the BioCreative V chemical disease relation dataset which is the most comprehensive dataset in the domain.
Keywords: Classifier Ensemble, Decision-Making Techniques, Genetic Algorithms, Optimization Techniques, Relation Extraction, Text Mining.
ÖZ:
Text içerisinde geçen varlıklar arasındaki ilişkileri bulmayı hedefleyen ilişki çıkarımı biyomedikal doğal dil işleme konusundaki önemli alanlardan biridir. İki varlık arasındaki ilişki tek bir cümle içerisinde tanımlanabileceği gibi, birbiriyle komşu iki veya daha fazla cümle ile de tanımlanabilir. Tek bir cümle içerisinde tanımlanan ilişkiler için “cümle-içi”, tanımı komşu iki veya daha fazla cümle ile yapılan ilişkilere “cümleler-arası” ilişki terimleri kullanılmıştır. Cümle-içi ve cümleler-arası seviyelerde ilişkilerin çıkarımını yapmak, her iki seviyede elde edilen bilgilerin içerik ve miktar olarak farklı olması nedeniyle zorluk çıkarmaktadır.
Çalışmamızde, her iki seviyedeki aday ilişki örneklerinin oluşturulması için metin işleme ve ilişki örneği oluşturma aşamalarını dikkatle inceleyerek ve akabinde performansın daha da iyileştirilmesi için her iki seviyede tahmin edilmiş olan ilişki örneklerini sınıflayıcı kombinasyonları kullanılarak birleştirmek suretiyle bu zorluk aşılmıştır. Metin işleme aşamasında, metin cümlelere bölündükten sonra cümle basitleştirilmesi uygulanarak bağımlılık ayrıştırma ağacından çıkarılacak bilgilerin iyileştirilmesi sağlanmıştır. Aday ilişki örneklerinin çıkarılması sırasında, anlamlı ve doğru ilişki adayları seçebilmek için bazı kurallar ve cümle yapıları uygulanmıştır. Tez kapsamında ilişki çıkarımı için iki ayrı sistem geliştirilmiştir. Geliştirilen ilk sistemde, her iki cümle seviyesindeki aday ilişki örnekleri ile eğitilen sınıflandırıcıların çıktıları eniyileme yöntemi ile birleştirmektedir. Eniyileştirme tekniği olarak genetik algoritma ve yenilik olarak sınıflandırıcı seçimi için belirsizlik teknikleri altında iki karar verme yaklaşımı kullanıldı. Geliştirilen diğer makine
öğrenimi sistemimizde, ilişki adayları cümle-içi ve cümleler arası seviyede ayrı ayrı derlenmiş ve bu iki veri kümesi birleştirilerek tüm ilişki adaylarını içeren üçüncü bir veri kümesi oluşturulmuştur. Bu şekilde oluşturulan üç veri seti ayrı ayrı iki makine öğrenimi algoritması kombinasyonunun eğitilmesi için kullanılmıştır. Bu aşamadan sonra tüm ilişki adayları kullanılarak eğitilen sistemin çıktısı ile cümle-içi ve cümleler-arası seviyelerinde eğitilen sınıflandırıcılarının çıktılarının birleşimi maximum probability voting algoritması kullanılarak birleştirilmiştir. İkinci sistemde sunulan yenilik farklı seviyelerin bu şekilde sınıflandırıcı kombinasyonları kullanılarak birleştirilmesidir. Bu çalışmadaki tüm deneyler, alandaki en kapsamlı veri kümesi olan BioCreative V kimyasal hastalık ilişkisi veri kümesi kullanılarak gerçekleştirilmiştir.
Anahtar Kelimeler: Eniyileştirme Teknikleri, Genetik Algoritmalar, İlişkisel Çıkarım, Karar Verme Teknikleri, Metin Madenciliği, Sınıflandırıcı Topluluğu