The main objective of the work presented in this thesis is to improve the performance
of multimedia search engines. The contributions of the work presented are: First, a
watcher based crawler (WBC) that has the ability of crawling static and dynamic
websites has been introduced. In this crawler, a watcher file, which can be uploaded
to the websites servers, prepares a report that contains the addresses of the updated
and the newly added webpages. The watcher file not only allows the crawlers to visit
the updated and the newly webpages, but also solves the crawlers overlapping and
communication problems. In addition, the proposed WBC is split into five units,
where each unit is responsible for performing a specific crawling process, and this
will increase both the crawling performance and the number of visited websites. The
second contribution of this thesis is presenting a new re-ranking approach based on
the multimedia files contents and some user specific actions. The proposed reranking
scheme has the ability of working with all multimedia types: video, image,
and audio. In addition, a group of multimedia descriptors that can be extracted from
the file concurrently using multiple threads, will be used to describe accurately the
multimedia file. Furthermore, the proposed re-ranking approach can show the most
relevant files to the top of the query results, and can increase the percentage of the
retrieved relevant files. Third, we have proposed an efficient scheme for eliminating
duplicated files in multimedia query results, and finally, the performance of the
query by example (QBE) has been enhanced to efficiently support all multimedia
types. Several experiments have been conducted to show the validity of the proposed
approaches.
Keywords: Multimedia search engines, Information retrieval, Crawling algorithm,
Re-ranking algorithm, Elimination of duplicated files, Query by Example
Öz: Bu tezde sunulan yöntemin esas amacı çoklu ortam arama motorlarının
performansını arttırmaktır. Burada sunulan işin getirilerinden ilki, izleyici tabanlı
örün robotudur (Watcher Based Crawler, WBC). Bu robot, statik ve dinamik siteleri
tarama özelliğine sahiptir. Önerilen sistemde, örün sunucularına atılabilen izleyici
dosyası aracılığıyla güncellenen ve yeni eklenen web siteleri raporlanır. Bu izleyici
dosyası örüntü robotunun yeni ve güncellenen sayfaları taramasını sağladığı gibi,
robotların çakışma ve iletişim sorunlarını da çözmektedir. Buna ek olarak, WBC beş
farklı birime ayrılmıştır. Bu birimler kendilerine özgü tarama işlemleri yaparak hem
tarama performansını hem de ziyaret edilen sitelerin sayısını arttırmaktadır. İkinci
olarak bu tezde, çoklu ortam dosya içeriklerine ve kullanıcı işlemlerine dayanan yeni
bir sıralama yöntemi önerilmiştir. Önerilen sıralama yöntemi tüm çoklu ortam
dosyalarıyla çalışabilmektedir (video, resim ve ses). Ek olarak, bir grup çoklu ortam
tanımlayıcısı, çok sayıda iş parçası kullanılarak ayıklanıp çoklu ortam dosyalarını
tanımlamak için kullanılmaktadır. Önerilen sıralama sistemi, aramayla ilgili
kayıtların yukarıda çıkmasını arttırdığı gibi, bulunan dosyaların konuyla ilgili olma
oranını da arttırmaktadır. Bu Ğalişmadak üçüncü katk ise, arama sonuçları listesinde
bulunan aynı sonuçları ayıklayan verimli bir sistem olmasidir. Son olarak, tüm çoklu
ortam dosyalarını verimli bir şekilde desteklemek için, örnekle sorgulama (Query by
Example, QBE) yöntemi kullanılmıştır. Oluşturulan bu sistemin doğrulanması için,
çeşitli deneyler yapılmıştır. Anahtar kelimeler: Çoklu ortam arama motorları, Bilgi çağırma, Bilgi erişim
sistemi, tarama algoritması, Sıralama algoritması, Eş dosyaların elenmesi, Örnekle
sorgulama, Çoklu ortam arama motorları.