matching is a process that takes multiple schemas as an input, applying a mapping between these schemas and produces one schema with the matching components. Most of data sources of E-business companies are heterogeneous, which making it difficult task for the integration and the exchange of the data. The purpose of this thesis is to indicate a matching system that involves required steps to produce a map while matching relational databases to ontology. According to researchers schema matching using two main approaches for classification; Individual Matcher Approaches and Combining Matcher Approaches with multiple levels of matching criteria. In this thesis individual matcher based on schema with linguistic based is used. A research done to find the suitable methodology that works effectively with schema matching; Conventional Neural Network (CNN) indicated to extract the important features and classify it to get a match. CNN uses word-embedding representations of two words as inputs to derive the semantic characteristics between the two words and provide a score as the result of how likely they fit the CNN pattern, Cosine Similarity and Jaro Winkler algorithms implemented with CNN to get better results. The combination of semantic schema matching with machine learning algorithm provide great improvement in the matching field, which become easier and time consuming. The performance of the proposed system showed that semantic similarity scores with clustering using CNN model could produce more than 90% accuracy. NetBeans and protégé are used to build the proposed system.
Keywords: Semantic Matching, Ontology, Machine Learning, CNN, Word Embedding, Backpropagation.
ÖZ: Şema eşlemesi, birden çok şemayı girdi olarak alan, bu şemalar arasında bir eşleme uygulayan ve eşleşen bileşenlerle yeni bir şema üreten işlemdir. E-ticaret şirketlerinin veri kaynaklarının çoğu heterojendir ve bu da verilerin entegrasyonu ve değişimi için zor bir yapıdır. Bu tezin amacı, ilişkisel veri tabanlarını ontolojideki kavramlar ile eşleştirirken, bir harita üretmek için gerekli adımları içeren bir eşleştirme sistemini belirtmektir. Sınıflandırma için iki ana yaklaşım kullanan araştırmacı şema eşleşmesine göre; Bireysel Eşleştirici Yaklaşımları ve Eşleştirici Yaklaşımlarını çok sayıda eşleştirme kriteri ile birleştirmektir. Bu tezde dil bilimsel şemaya dayalı bireysel eşleştirici yöntemi kullanılmıştır. Şema eşleşmesi ile etkili bir şekilde çalışan uygun metodolojiyi bulmak için yapılan bir araştırmada, Konvansiyonel Sinir Ağının (CNN) önemli kavramsal özellikleri çıkarması ve yeni bir eşleşme elde etmek için sınıflandırması uygulanmıştır. CNN, iki sözcüğün anlamsal bağlılıklarını bulmak için, CNN modeline, Kosinüs Benzerliğine ve Jaro Winkler algoritmalarına eşleşme olasılıklarının üzerinden iki sözcüğün eşleşmesini tanımlar. Anlamsal şema eşleşmesinin makine öğrenme yaklaşımı ile birleşimi, veri eşleştirme sahasında daha kolay ve zamandan kazanç sağlayacak büyük gelişme sağlar. Önerilen sistemin performansı, CNN modeli ve anlamsal benzerlik algortimaları uygulanarak, sistem performansının doğruluk oranını %90'dan fazla üretebileceğini göstermiştir. NetBeans ve Protégé araçları önerilen sistemi oluşturmak için kullanılmıştır.
Anahtar Kelimeler: Semantik Eşleme, Ontoloji, Makine Öğrenmesi, CNN, Kelime Gömme, Geri çoğaltma.