Database Schema Matching is a process which intakes multiple schema as an entry
and yields back a mapping that classifies a similar component in these schemas. This
process is mostly used to locate and identify semantically related-target. With this
method or process it eases the finding and matching of divergent and randomly
scattered data sets. It is one valuable tool for data processing and schema integration.
Researches shows that various methods for schema matching based on different
schema level matcher and classification criteria are proposed in order to find the most
similar attributes and element in the schemas. Schema matching is classified into two
approaches; Individual Match Approach and Combining Matchers Approach. In this
thesis the individual match approach is used, which considers the schema level that is
linguistic based. Past studies exhibited several methodologies to make the matching
process in schema matching partially and fully automated, while in this thesis
Convolutional Neural Network (CNN) methodology is proposed to implement an
automated database schema matching engine with the aid of cosine similarity
algorithm and Jaro Winkler algorithm. One of the powerful characteristics of the
proposed methodology is that, it can be automated hence, less time is required to carry
a particular task and more efficient if the task is more complex and if it is a larger scale
task. The proposed methodology showed a very satisfactory result. The purpose of this
thesis is to implement an automated database schema matching engine in addition to
research and study the techniques and methodologies that is used for schema matching.
Keywords: Schema Matching, Individual Match, Multiple Matchers, Convolutional
Neural Network
ÖZ:Veritabanı Şeması eşleştirme, birden çok şemayı bir girdi olarak alan ve bu şemalarda
benzer bir bileşeni sınıflandıran bir eşlemeyi üreten bir süreçtir. Bu işlem çoğunlukla
anlamsal olarak ilişkili hedefi bulmak ve tanımlamak için kullanılır. Bu yöntem veya
işlem sayesinde farklı ve rastgele dağılmış veri kümelerinin bulunması ve
eşleştirilmesi kolaylaşır. Veri işleme ve şema birleştirilmesi için değerli bir araçtır.
Araştırmalar, şemalarda en benzer özellikleri ve öğeleri bulmak için farklı seviyedeki
şema eşleştiricisi ve sınıflandırma kriterlerine dayalı olarak şema eşleştirmesi için
çeşitli yöntemlerin önerildiğini göstermektedir. Şema eşleştirme iki yaklaşım olarak
sınıflandırılır; Bireysel Eşleşme Yaklaşımı ve Eşleştirici Birleşmesi Yaklaşımı. Bu
tezde, dil temelli şema düzeyini dikkate alan bireysel eşleşme yaklaşımı
kullanılmaktadır. Geçmiş çalışmalar şemada eşleştirme işlemini kısmen ve tamamen
otomatik hale getirmek için çeşitli metodolojiler sergilerken, bu tezde Sarmallı Sinir
Ağı (CNN) metodolojisi, kosinüs benzerlik algoritması ve Jaro winkler algoritması
yardımıyla otomatik bir veritabanı şeması eşleştirme motorunun uygulanmasını önerir.
Önerilen metodolojinin en önemli özelliklerinden biri, otomatikleştirilebileceğinden
dolayı, belirli bir görevi yerine getirmek için daha az zamana ihtiyaç duyulması ve
görev daha karmaşıksa ve daha büyük ölçekli bir görev ise daha verimli olmasıdır.
Önerilen metodoloji oldukça tatmin edici sonuçlar göstermiştir. Bu tezin amacı, şema
eşleştirme için kullanılan teknikleri ve metodolojileri araştırmaya ve incelemeye ek
olarak otomatik bir veritabanı şema eşleştirme motorunu uygulamaktır.
Anahtar Kelimeler: Şema Eşleştirme, Bireysel Eşleme, Çoklu Eşleştiriciler, Sarmallı
Sinir Ağı.