It is no doubt that the insurance industry is no stranger to data driven decision making.
The field of health insurance has seen profound transformation in recent times driven
by technological advancement, data proliferation and evolved healthcare dynamics.
Traditional methods for predicting health insurances premiums face several different
challenges which can result in inaccurate pricing, adverse selection and suboptimal
risk assessment. Some of these limitations including but not restricted to limited data
utilization, static models and inefficiency in underwriting.
This thesis project seeks to investigate comprehensively how machine learning based
regression models and techniques, including linear regression, polynomial regression
and XGBoost regression can be used in insurance to make predictions on health
insurance premiums. Using a diverse historic US health insurance dataset gotten from
Kaggle containing client insurance charges, demography information, lifestyle factors,
these models meticulously tuned, trained, and evaluated. The study does in-depth
examination of the methodologies, including exploratory data analysis, feature
selection and engineering, hyperparameter optimization, and model evaluation, to
determine the predictive accuracy of each model.
ÖZ:
Sigorta endüstrisinin veri odaklı kararlar almaya yabancı olmadığı şüphesizdir. Sağlık
sigortası alanında, teknolojik ilerleme, veri çoğalması ve gelişmiş sağlık dinamikleri
tarafından yönlendirilen köklü bir dönüşüm yaşanmıştır. Geleneksel yöntemlerle
sağlık sigortası primlerini tahmin etme, doğru fiyatlandırmayla, olumsuz seçimle ve
altoptimal risk değerlendirmesiyle sonuçlanabilen çeşitli zorluklarla karşılaşmaktadır.
Bu sınırlamalar arasında, ancak bunlarla sınırlı olmamak kaydıyla, sınırlı veri
kullanımı, statik modeller ve underwritingdeki verimsizlik bulunmaktadır.
Bu tez projesi, sağlık sigortası primlerine ilişkin tahminlerde bulunmak için makine
öğrenmesi tabanlı regresyon modelleri ve tekniklerin, lineer regresyon, polinom
regresyon ve XGBoost regresyonunun kapsamlı bir şekilde nasıl kullanılabileceğini
araştırmayı amaçlamaktadır. Kaggle'dan alınan çeşitli tarihli bir ABD sağlık sigortası
veri setini kullanarak, müşteri sigorta ücretleri, demografik bilgiler, yaşam tarzı
faktörleri içeren bu modeller özenle ayarlanmış, eğitilmiş ve değerlendirilmiştir.
Çalışma, keşifsel veri analizi, özellik seçimi ve mühendisliği, hiperparametre
optimizasyonu ve model değerlendirmeyi içeren yöntemleri derinlemesine
incelemekte ve her modelin tahmin doğruluğunu belirlemektedir.