In pattern classification, class-imbalance problem occurs when the number of
samples in one of the classes is much larger than those in the others. In such cases,
the performance of classifiers is generally poor on the minority class. Ensembles of
classifiers are used to tackle this problem where each member is developed using a
different balanced dataset. In this approach, one balancing strategy and a classifier
prototype is generally used. In order to increase the diversity among the members,
bagging and boosting are also considered. In this thesis, the use of heterogeneous
ensembles utilizing multiple prototypes and multiple balancing schemes for
imbalance learning is addressed. Experiments conducted on 66 datasets have shown
that significant improvements can be achieved by employing multiple prototypes. It
is also observed that multiple balancing schemes contribute to the performance
scores, especially in simple and bagging-based ensembles.
ÖZ:
Örüntü tanımada, bir sınıftaki örnek sayısı diğer sınıflarınkinden çok daha fazla
olduğunda sınıf-denksizliği problem oluşmaktadır. Bu tür durumlarda, sınıflandırıcı
başarımı kıüçük sınflarda düşük olmaktadır. Bu problemi aşmak için, her üyenin
denkleştirilmiş bir veri kümesi ile eğitildiği çoğul sınıflandırıcılı sistemler
kullanılmaktadır. Bu sistemler, genellikle bir denkleştirme ve bir sınıflandırıcı tipi ile
geliştirilmektedir. Sınıflandırıcılar arasındaki farklılıkları artırmak için, torbalama ve
artırma teknikleri de kullanılmaktadır. Bu tezde, birden fazla denkleştirme ve
sınıflandırcı tipi kullanan heterojen çoğul sınıflandırıcı sistemlerin denksizlik
öğrenmede kullanımı çalışılmıştır. 66 veri kümesinde yapılan deneysel çalışmalar,
birden fazla sınıflandırıcı tipi kullanılarak başarımda belirgin iyileştirmeler
sağlanabileceğini göstermiştir. Ayrıca, birden fazla denkleştirme algoritmasının
kullanılmasının, özellikle basit ve torbalama-tabanlı sistemlerin başarımına katkıda
bulunduğu gözlemlenmiştir.