ABSTRACT: The working principle of the Internet is such that anyone who sets up a server computer and connects it to the local area network in their neighborhood becomes equipped to shear with the world any type of information they deem appropriate. Generally, some of this information dispatched is not appropriate for viewing of our children and some steps should be taken to help the society so that classification and controlled access become possible. Throughout this thesis, we designed and implemented a text and image based web-page filtering system that makes use of web page parsing, HTML tags removal and string in string search procedures along with various other criteria for processing images downloaded from a web site using a custom written JAVA program. For the text, there are some words and phrases that are common to pornographic sites and are rarely seen in regular sites. To find out such words and phrases, a survey was done on a number of sites. With the words and phrases determined, our expectation is that any site which may contain pornographic oriented text will have in it some of these words and phrases. Hence, once the tested web page was parsed and the pure text string was obtained from the downloaded HTML code the string would be searched for the type of words and phrases previously determined and final decision would be made based on the frequency of words detected. From literature survey, everyone seems to agree that pornographic images have too much skin exposure which is why detecting skin is generally the starting point. To find out the amount of skin in an image, improved YCbCr color segmentation was implemented. The improved YCbCr segmentation would satisfactorily segment out the skin from the other regions but some skin like objects would still be falsely detected. Therefore, texture property was used to differentiate bearing in mind that skin is generally smooth and most others textures aren’t (many are more coarse). In order to classify a web site from which images have been extracted through the help of a JAVA program, criteria such as face detection, lacunarity, edge sum, uniformity, entropy and percentage of skin region have been employed and when three or more of the criteria were met this was taken as an indication for containing adult nature material. Final decision was made by computing percentages for the results obtained for both the text and image analysis and comparing the average of the two to some previously selected threshold ranges. For the five randomly selected adult content containing web sites that were used for test purposes the text analysis always gave 95-100% accuracy and the image analysis resulted in 56.83, 54.83, 52.63, 57.14, 66.67 % accuracy respectively for sites 1-5 as detailed in chapter 5. In chapter five it was also shown how the two results (text and image analysis) can be combined to get an average percentage. For the five different web sites considered the lowest average percentage obtained was 73.82%.
Keywords: HTML parsing, skin color segmentation, texture analysis, lacunarity.
………………………………………………………………………………………………………………………………………………………………………………
ÖZ: İnternetin çalışma prensipleri, bir bilgisayarı server olarak kullanıp komşuluğundaki yerel ağ bağlantısına bağlayan herkesin uygun gördüğü her türlü bilgiyi dünya ile paylaşmak için gerekli donanıma sahip olacağı bir ortam oluşturmaktadır. Genel olarak çocuklarımızın paylaşılan bu bilgilerin bir kısmına erişimleri uygun olmayıp sınıflandırma ve kontrollü erişimin sağlanması amacıyla topluma yardımcı olmak adına bazı çalışmaların yapılması gerekmektedir. Bu tez çalışmasında, geliştirilen bir JAVA programı sayesinde bir web sitesinden indirilen görüntülerin işlenmesi için çeşitli diğer kriterlerin yanında web sitesi ayrıştırılması, HTML etiketlerinin kaldırılması ve digi içinde dizgi araştırma prosedürlerini uygulayan metin ve görüntü bazlı bir web site filtreleme sistemi geliştirilmiştir. Metin ile ilgili olarak genellikle normal sitelerde nadiren görülen ve pornografik siteler arasında ortak olan bazı kelime ve terimler bulunmaktadır. Bu kelime ve terimlerin belirlenmesi ve saptanması amacıyla birkaç site üzerinde bir anket çalışması yapılmıştır. Belirlenen kelime ve terimlerden yola çıkılarak, beklentimiz pornografik odaklı metinleri içeren sitelerde bu kelime veya terimlerin bazılarının bulunacağı yönündedir. Dolaysıyla test edilen web sitesinin ayrıştırılıp indirilen HTML kodlarından saf metin dizelerinin elde edilmesinden sonra bu dizeler daha önceden belirlenen kelime ve terimler açısından araştırılacak olup nihai kararlar belirlenen kelimelerin kullanım sıklıkları dikkate alınarak verilecektir. Literatür çalışmasından, herkesin pornografik içerikli sitelerde yüksek deri gösterim oranlarının bulunduğu yönünde hem fikir olduğu belirlenmiş olup bu gerçek ise cilt belirlemesinin bir başlangıç noktası olarak kabul edilmesinin nedenini oluşturmaktadır. Bir görüntüdeki cilt oranının belirlenmesi için geliştirilmiş YCbCr renk ayrıştırmama algoritması uygulanmıştır. Bu yöntem cildin diğer kısımlardan ayırt edilmesinde iyi sonuçlar doğurmuş olup ancak cilt ile benzer özelliklere sahip olan bazı diğer kısımlar da yanlıkşlıkla ayırt edilmiştir. Dolaysıyla cildin genellikle diğer dokuların bir çoğu ile kıyas ile daha yumuşak olduğu (birçoğu daha kabadır) izleniminin göz önünde bulundurulması amacıyla doku özelliklerinden yararlanılmıştır. Bir JAVA programından yararlanılarak görüntülerin çıkarıldığı bir web sitesinin sınıflandırılması amacıyla yüz tanıma, lakunarite, kenar toplamları, tekdüzelik, cilt alanı entropi ve yüzdesi gibi bazı kriterler dikkate alınmış olup bu kriterlerin en az üçünün sağlandığı durumlarda yetişkenlere özel içeriklerin bulunduğu yönünde bir işaret olarak kabul edilmiştir. Nihai kararlar hem metin hem de görüntü analizlerinden elde edilen sonuçların yüzdelerinin hesaplanması ve bu iki faktörün ortalamasının daha önceden belirlenen bir eşik değer ile karşılaştırılması sonucunda verilmiştir. Yetişkinlere özel içeriklere sahip olup test amacıyla kullanılan ve gelişigüzel bir şekilde seçilen beş web sitesi için metin analizleri her zaman 95-100% oranında doğruluk göstermiş olup görüntü analizleri ise 1-5 olarak adlandırılan ve 5.bölümde detaylı bir şekilde açıklanan web siteleri için sırasıyla 56.83, 54.83, 52.63, 57.14 ve 66.67% olarak sonuçlanmıştır. Beşinci bölümde ayrıca ortalama bir yüzde oranının elde edilmesi için zikredilen iki sonucun (metin ve görüntü analizleri) nasıl birleştirilebileceği belirtilmiştir. Dikkate alınan beş farklı web sitesi için elde edilen en düşük ortalama yüzde oranı 73.82% olarak bulunmuştur. Anahtar Kelimeler: HTML ayrıştırması, deri rengi ayrıştırması, doku analizi, lakunarite.