|
EMU I-REP >
02 Faculty of Engineering >
Department of Computer Engineering >
Theses (Master's and Ph.D) – Computer Engineering >
Please use this identifier to cite or link to this item:
http://hdl.handle.net/11129/5732
|
Title: | 3D Scene Recognition From a Single Image |
Authors: | Demirel, Hasan (Co-Supervisor) Chefranov, Alexander (Supervisor) Khan, Altaf Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering |
Keywords: | Computer Engineering Three-Dimensional Imaging (3D Imaging) Scene Understanding--Scene RecognitionSubject Object Recognition Computer Vision--Artificial Systems CNN Ensemble of classifiers Handcrafted feature Multi-layer features Predefined templates Stages 3D scene recognition |
Issue Date: | Feb-2021 |
Publisher: | Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ) |
Citation: | Khan, Altaf. (2021). 3D Scene Recognition From a Single Image. Thesis (Ph.D.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Computer Engineering, Famagusta: North Cyprus. |
Abstract: | Human eyes capture the world around us and effortlessly derive an impression of scene
depth from a single image. However, developing an artificial system that can identify
the impression of the 3D scene with the same performance and robustness as humans,
still is a challenge for researchers from such fields as physiology, computer science,
and artificial intelligence. The 3D scene recognition from a single image is an
important problem for many applications of computer vision such as autonomous
vehicle control, scene understanding, and 3D TV. The contributions of the thesis are
explored in three different ways. First, the segmentation-based feature extraction
method is introduced to classify the relatively clear geometry structure images, in
which the image features are extracted by exploiting predefined templates, each
associated with an individual classifier. Each of the individual classifiers learns a
discriminative model and their outcome are fused together using sum-rule for
recognizing the 3D scene geometry of an input image. It achieves 86.25% recognition
accuracy on ‘stage dataset 1’, which is higher than the state-of-the-art methods.
In the second contribution, a new method of 3D scene recognition-based on the fusion
of deep convolutional neural network (CNN) features and texture gradient features is
presented. Meanwhile, as the 3D scene geometry dataset is not publically given, thus,
a medium scale, ‘stage dataset 2’, is introduced. Experimental results exhibit that the
proposed method reaches 86.29% recognition accuracy, which achieves higher
accuracy and faster than the baseline methods.
Finally, in the third contribution, the handcrafted features are integrated with multi layer features at different intermediate blocks of CNN, and each block is connected
with an individual classifier and then scores of these classifiers are combined while
using sum and product-rule to recognize the scene geometry type. The introduced
approach is validated on two benchmark datasets and it achieves 95.17% and 97.68%
recognition accuracy on ‘stage 2 dataset’ and ‘15-scene’, which is superior to the state of-the-art methods.
Keywords: CNN, Ensemble of classifiers, Handcrafted feature, Multi-layer features,
Predefined templates, Stages, 3D scene recognition ÖZ:
İnsan gözleri çevremizdeki dünyayı yakalar ve tek bir görüntüden zahmetsizce sahne
derinliği izlenimi çıkarır. Bununla birlikte, 3B sahnenin izlenimini insanlarla aynı
performans ve sağlamlıkla tanımlayabilen yapay bir sistem geliştirmek, fizyoloji,
bilgisayar bilimi ve yapay zeka gibi alanlardan araştırmacılar için hala bir zorluktur.
Tek bir görüntüden 3B sahne tanıma, otonom araç kontrolü, sahne anlama ve 3B TV
gibi birçok bilgisayar görüşü uygulaması için önemli bir sorundur. Tezin katkıları üç
farklı şekilde incelenmiştir. İlk olarak, her biri ayrı bir sınıflandırıcıyla
ilişkilendirilmiş önceden tanımlanmış şablonlardan yararlanılarak görüntü
özniteliklerinin çıkarıldığı nispeten net geometri yapı görüntülerini sınıflandırmak için
segmentasyon tabanlı öznitelik çıkarma yöntemi tanıtılmıştır. Her bir sınıflandırıcı,
ayırt edici bir modeli öğrenir ve sonuçları, bir giriş görüntüsünün 3B sahne
geometrisini tanımak için toplama kuralı kullanılarak bir araya getirilir. Son teknoloji
yöntemlerden daha yüksek olan "aşama veri kümesi 1" de %86.25 tanınma
doğruluğuna ulaşır.
İkinci katkıda, derin evrişimli sinir ağı (CNN) özelliklerinin ve doku gradyan
özelliklerinin birleşimine dayalı yeni bir 3B sahne tanıma yöntemi sunulmuştur. Bu
arada, 3B sahne geometrisi veri kümesi halka açık olarak verilmediğinden, orta ölçekli
bir "aşama veri kümesi 2" tanıtıldı. Deneysel sonuçlar, önerilen yöntemin, temel
yöntemlerden daha yüksek doğruluk ve daha hızlı olan %86.29 tanıma doğruluğuna
ulaştığını göstermektedir.
Son olarak, üçüncü katkı olarak, el yapımı özellikler, farklı CNN ara bloklarında çok
katmanlı özniteliklerle entegre edilir ve her blok ayrı bir sınıflandırıcıyla birleştirilir
ve ardından bu sınıflandırıcıların puanları, toplam ve çarpım kuralı kullanılarak
birleştirilir. Sunulan yaklaşım, iki kıyaslama veri kümesinde doğrulanmıştır ve son
teknoloji yöntemlerden daha üstün olan "aşama veri kümesi 2" ve "15 sahnesi" veri
kümesinde %95.17 ve %97.68 tanıma doğruluğuna ulaşır.
Anahtar Kelimeler: CNN, Grup sınıflandırıcılar, El işi öznitelikleri, Çok katmanlı
öznitelikler, Önceden tanımlanmış şablonlar, Sahneler, 3B sahne tanıma |
Description: | Doctor of Philosophy in Computer Engineering. Institute of Graduate Studies and Research. Thesis (Ph.D.) - Eastern Mediterranean University, Faculty of Engineering, Dept. of Computer Engineering, 2021. Co-Supervisor: Prof. Dr. Hasan Demirel and Supervisor: Assoc. Prof. Dr. Alexander Chefranov. |
URI: | http://hdl.handle.net/11129/5732 |
Appears in Collections: | Theses (Master's and Ph.D) – Computer Engineering
|
This item is protected by original copyright
|
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
|