Bioinformatics is a new yet quickly evolving interdisciplinary field that combines different other branches of science like biology and computer science. This field of science mainly relates to the process of extracting, categorizing and finally analyzing relevant biological data from large and not organized sources of information available. In this thesis, two machine-learning approaches, namely SVM and CRF have been performed for the recognition and classification of drugs and chemicals. These tasks are named as DrugNER and DrugNEC and have gained significant attention from the biomedical text mining community in recent years. Train and test datasets used in this work are derived from The DDI Corpus [1]. Three groups of features, morphological, lexical and orthographic are used. Wrapper based feature selection methods are used to find an optimal feature ensemble. In addition, wrapped based classifier selection algorithms are used in order to find an optimal set of classifiers from a large pool of CRF and SVM based classifiers. Results of both approaches have been compared. Finally a new majority voting algorithm, referred to as ranked-weighted majority voting is proposed and used during the combination of classifiers.
Keywords: Biomedical Text Mining, Drug Name Entity Recognition, Feature Selection, Ranked-Weighted Majority Voting, Classifier Selection, Machine Learning, Support Vector Machines, Conditional Random Fields.
ÖZ:
Biyoi-bilişim yeni ve ayni zamanda hızla gelişen,biyoloji ve bilgisayar bilimleri alanlarını birleştiren multidisipliner bir alandır. Çoğunlukla iyi organize edilmemiş, büyük very kaynaklardan biyolojik bilginin çıkarılması, sınıflandırılması ve analiz edilmesi ile ilgilenen bir alandır. Bu tezde, otomatik öğrenmeye dayalı sınıflandırcılar olan Vektör Destek Makineleri (VDM) ve Koşullu Rastegele Alanlar (KRA) sınıflandırıcıları kullanılarak kimyasal ve ilaç isimlerinin metinden çıkarılarak sınıflandırılması yapılmıştır. İlaç İsimlendirilmiş Nesne Tanıma ve Sınıflandırılması diye tanımlanan bu işlemler biyo-medikal veri madenciliği alanında son yıllarda araştırmacıların büyük ilgisini çekmiştir. Bu çalışmada kullanılan eğitim kümesi ve test kümesi DDI Bütünce’sinden [1] üretilmiştir. Çeşitli yapılarda morfolojik, sözlüksel, ve ortografik öznitelikler kullanılmıştır. En iyi öznitelik alt kümesini elde edebilmek için sargı yöntemine dayalı algoritmalar olarak İleri Seçim, ve algoritmaları kullanılmıştır. Buna ilave olarak en iyi sınıflandırıcı alt kümesini bulmak için de ayni algoritmalar denenmiştir. Her iki yöntemin sonuçları çalışmada karşılaştırılmıştır. Son olarak, sınıflandırıcıların birleştirilmesinde ağırlık katmanlı çoğunluk oylama diye adlandırılmış yeni bir çoğunluk oylama yöntemi önerilmiştir.
Anahtar kelimeler: Biyo-medikal Metin Madenciliği, İlaç İsimlendirilmiş Nesne Tanıma, Öznitelik Seçme, Ağırlık Katmanlı Çoğunluk Oylama, Sınıflandırıcı Seçme, Otomatik Öğrenme, Vektör Destek Makineleri, Koşullu Rastegele Alanlar.