Applying Machine Learning-Based Regression Models in the Prediction of Health Insurance Premium

dc.contributor.advisorTut, Mehmet Ali (Supervisor)
dc.contributor.authorMukwa, Njoh Nji
dc.date.accessioned2025-07-15T06:02:01Z
dc.date.available2025-07-15T06:02:01Z
dc.date.issued2024-02
dc.date.submitted2024-02
dc.departmentEastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematicsen_US
dc.descriptionMaster of Science in Applied Mathematics and Computer Science. Institute of Graduate Studies and Research. Thesis (M.S.) - Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics, 2024. Supervisor: Asst. Prof. Dr. Mehmet Ali Tut.en_US
dc.description.abstractIt is no doubt that the insurance industry is no stranger to data driven decision making. The field of health insurance has seen profound transformation in recent times driven by technological advancement, data proliferation and evolved healthcare dynamics. Traditional methods for predicting health insurances premiums face several different challenges which can result in inaccurate pricing, adverse selection and suboptimal risk assessment. Some of these limitations including but not restricted to limited data utilization, static models and inefficiency in underwriting. This thesis project seeks to investigate comprehensively how machine learning based regression models and techniques, including linear regression, polynomial regression and XGBoost regression can be used in insurance to make predictions on health insurance premiums. Using a diverse historic US health insurance dataset gotten from Kaggle containing client insurance charges, demography information, lifestyle factors, these models meticulously tuned, trained, and evaluated. The study does in-depth examination of the methodologies, including exploratory data analysis, feature selection and engineering, hyperparameter optimization, and model evaluation, to determine the predictive accuracy of each model.en_US
dc.description.abstractÖZ: Sigorta endüstrisinin veri odaklı kararlar almaya yabancı olmadığı şüphesizdir. Sağlık sigortası alanında, teknolojik ilerleme, veri çoğalması ve gelişmiş sağlık dinamikleri tarafından yönlendirilen köklü bir dönüşüm yaşanmıştır. Geleneksel yöntemlerle sağlık sigortası primlerini tahmin etme, doğru fiyatlandırmayla, olumsuz seçimle ve altoptimal risk değerlendirmesiyle sonuçlanabilen çeşitli zorluklarla karşılaşmaktadır. Bu sınırlamalar arasında, ancak bunlarla sınırlı olmamak kaydıyla, sınırlı veri kullanımı, statik modeller ve underwritingdeki verimsizlik bulunmaktadır. Bu tez projesi, sağlık sigortası primlerine ilişkin tahminlerde bulunmak için makine öğrenmesi tabanlı regresyon modelleri ve tekniklerin, lineer regresyon, polinom regresyon ve XGBoost regresyonunun kapsamlı bir şekilde nasıl kullanılabileceğini araştırmayı amaçlamaktadır. Kaggle'dan alınan çeşitli tarihli bir ABD sağlık sigortası veri setini kullanarak, müşteri sigorta ücretleri, demografik bilgiler, yaşam tarzı faktörleri içeren bu modeller özenle ayarlanmış, eğitilmiş ve değerlendirilmiştir. Çalışma, keşifsel veri analizi, özellik seçimi ve mühendisliği, hiperparametre optimizasyonu ve model değerlendirmeyi içeren yöntemleri derinlemesine incelemekte ve her modelin tahmin doğruluğunu belirlemektedir.en_US
dc.identifier.citationMukwa, Njoh Nji. (2024).Applying Machine Learning-Based Regression Models in the Prediction of Health Insurance Premium . Thesis (M.S.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Mathematics, Famagusta: North Cyprus.en_US
dc.identifier.urihttps://hdl.handle.net/11129/6406
dc.language.isoen
dc.publisherEastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ)en_US
dc.relation.publicationcategoryTez
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectThesis Tezen_US
dc.subjectMathematics Departmenten_US
dc.subjectApplied Mathematics and Computer Scienceen_US
dc.subjectData Scienceen_US
dc.subjectRegression analysis--Computer Scienceen_US
dc.subjectInformation retrievalen_US
dc.subjectData--Information--Storage and Retrievalen_US
dc.subjectHealth Insuranceen_US
dc.subjectMachine Learningen_US
dc.subjectStatisticsen_US
dc.subjectLinear Regressionen_US
dc.subjectPolynomialen_US
dc.subjectXGBroosten_US
dc.subjectML Modelsen_US
dc.subjectPythonen_US
dc.titleApplying Machine Learning-Based Regression Models in the Prediction of Health Insurance Premiumen_US
dc.typeMaster Thesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
MukwaNjoh-Master.pdf
Size:
2.51 MB
Format:
Adobe Portable Document Format
Description:
Thesis, Master

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.77 KB
Format:
Item-specific license agreed upon to submission
Description: