DSpace
 

EMU I-REP >
08 Faculty of Arts and Sciences >
Department of Mathematics >
Theses (Master's and Ph.D) – Mathematics >

Please use this identifier to cite or link to this item: http://hdl.handle.net/11129/5046

Title: Text Mining Techniques and an Application on Natural Language Processing by Using R
Authors: Tut, Mehmet Ali
Onwochei, Daniel Onyeka
Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics
Keywords: Mathematics
Applied Mathematics and Computer Science
Data Mining
Database searching
Big Data
Data Mining
Information Extraction
Natural Language Processing
Summarization
Text Mining
Issue Date: 2019
Publisher: Eastern Mediterranean University (EMU) - Doğu Akdeniz Üniversitesi (DAÜ)
Citation: Onwochei, Daniel Onyeka. (2019). Text Mining Techniques and an Application on Natural Language Processing by Using R. Thesis (M.S.), Eastern Mediterranean University, Institute of Graduate Studies and Research, Dept. of Mathematics, Famagusta: North Cyprus.
Abstract: In our current society, technology is advancing at a very high pace, and these new inventions also generates large amount of data. Data is now increasing at an exponential rate, and this alarming growth rate has led to difficulty in getting and retrieving specific information from the web. Automatic summarization systems can help to resolve this information overload problem in an effective way. It easily identifies the important points from a document to produce a concise summary. Thus, the thesis investigates the extractive-based approach in generation of a summary from single documents/texts. In the study, an extractive-based summarization framework (EBSF) was designed, also, an extractive-based text summarization system has been developed, evaluated and its workflow described. The framework implements several techniques and the summarization system generates extractive summaries from news articles using an extractive-based summarization technique which is based on the TextRank algorithm. Results from the various program testing shows that the summaries generated using our extractive-based summarization system offers an excellent tradeoff between time/length and accuracy. In this study, the summaries from the designed summarizing system, tends to be concise and contain less extraneous material.
ÖZ: Mevcut toplumumuzda, teknoloji çok hızlı ilerliyor ve bu yeni buluşlar da büyük miktarda veri üretiyor. Veriler artık üstel bir oranda artmakta ve bu endişe verici büyüme hızı, web'den belirli bilgilerin elde edilmesinde ve alınmasında zorluklara neden olmuştur. Otomatik özetleme sistemleri, bu bilgi aşırı yük sorununu etkili bir şekilde çözmeye yardımcı olabilir. Kısa bir özeti oluşturmak için bir belgedeki önemli noktaları kolayca tanımlar. Bu nedenle, tez, tek bir belgeden / metinlerden bir özet özeti çıkarmaya dayalı yaklaşımı incelemektedir. Çalışmada, çıkartma temelli bir özetleme çerçevesi (EBSF) tasarlandı, ayrıca çıkartma temelli bir metin özetleme sistemi geliştirildi, değerlendirildi ve iş akışı tanımlandı. Çerçeve, çeşitli teknikleri uygular ve özetleme sistemi, TextRank algoritmasına dayanan bir çekişme tabanlı özetleme tekniğini kullanarak haber makalelerinden çekişme özetleri oluşturur. Çeşitli program testlerinden elde edilen sonuçlar, ekstraktif tabanlı özetleme sistemimizi kullanarak oluşturulan özetlerin zaman / uzunluk ve doğruluk arasında mükemmel bir değişim sunduğunu göstermektedir. Bu çalışmada, tasarlanan özetleme sistemindeki özetler özlü olma eğilimindedir ve daha az yabancı materyal içerir.
Description: Master of Science in Applied Mathematics and Computer Science. Thesis (M.S.)--Eastern Mediterranean University, Faculty of Arts and Sciences, Dept. of Mathematics, 2019. Supervisor: Assist. Prof. Dr. Mehmet Ali Tut.
URI: http://hdl.handle.net/11129/5046
Appears in Collections:Theses (Master's and Ph.D) – Mathematics

Files in This Item:

File Description SizeFormat
Onwocheidaniel.pdfThesis, Master1.22 MBAdobe PDFView/Open


This item is protected by original copyright

Recommend this item
View Statistics

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2010  Duraspace - Feedback