Home / MAKALELER / İş Zekası / Web Madenciliği — Bölüm 1

Web Madenciliği — Bölüm 1

Bu makalede Web Madenciliğinin genel tanımı verilerek türleri açıklanmıştır. Bu alanda çalışma yapacak arkadaşlara genel bilgi vermek amaçlanmıştır.TTB1

Web madenciliği genel olarak kullanışlı veya işe yarar bilginin WWW üzerindeki veri yığınları içinde keşfi ve analizi olarak tanımlanabilir. Web madenciliğinde kullanılacak bu veri ise sunuculardan, istemcilerden, vekil sunuculardan veya kurumsal veritabanlarından toplanabilir. Verinin tipi, toplandığı bu kaynaklara ve içeriğine göre (metin, ses, görüntü vs.) değişkenlik taşır. Bahsedilen verilerdeki bu değişkenlik de üzerlerinde çalışacak web madenciliği uygulamalarının belirli bir yelpazede değişmesine neden olur. Web üzerindeki verilerin sahip oldukları bazı özellikler şu şekilde özetlenebilir [9]:
  • etiketsizdir (tanımlayıcı bilgisi yoktur),
  • dağıtıktır,
  • çok çeşitlidir,
  • yapısal farklılıklar gösterir,
  • zamana göre değişkendir,
  • çok boyutludur.
Veri madenciliğinde başlıca üç çeşit çalışma alanı bulunmaktadır: Veri madenciliği, Web madenciliği ve Metin madenciliği [10].
Veri madenciliği daha çok veritabanları ve veri ambarları gibi düzgün yapılanmış veri üzerinde çalışırken metin madenciliği, verinin kaynağının bütünü değil de alt parçaları olarak değerlendirildiğinde yapılanmamış, belirli kurallarla şekillendirilemeyen metin verisi üzerinde çalışır. Web madenciliği ise bunların arasında yarı yapılanmış veri üzerinde çalışır diyebiliriz. Web madenciliği bu açıdan bakıldığında hem veri madenciliğinin hem de metin madenciliğinin kendi disiplinlerine özgü yaklaşımlardan yararlanabilir.
WWW, günümüzde en yaygın bilgi paylaşma ve bilgi edinme ortamıdır. Tüm dünya üzerindeki kullanımından dolayı internetteki veri o kadar hızlı büyümekte,     çeşitlenmekte ve güncellenmektedir ki bu veriyi kullanmak isteyenler aşağıdaki sorunlarla karşı karşıya kalmaktadırlar [10].
  1. İhtiyaç Duyulan Bilgiyi Bulma – İnsanlar web üzerinde arama yaparken ya gezinirler (browsing) ya da çeşitli arama servislerini (arama motorları) kullanırlar. Bununla birlikte kullanıcının gezinti ile arama yapacağı veri uzayı sınırlıdır. Arama servislerinin ise döndürdükleri sonuçların çoğunun gereksiz ve aranılan bilgi ile karşılaştırıldığında düşük duyarlılık gibi sorunları bulunmaktadır.
  2. Web’de bulunan veriden bilgi yaratabilmek – Özünde bu problem yukarıdakinin alt problemidir. Yukarıdaki problem sorgu ile tetiklenen belirli bir kıstasa göre arama yapıp elde etmeye dayalı bir süreçtir. Yeni bilgi yaratabilme problemi ise bir yığın web verisine sahip olduğunuzu ve bu veriden anlamlı, yeni ve ilginç bilgi çıkartıp kullanmak istediğinizi varsayan, veri tarafından tetiklenen bir süreçtir.
  3. Verinin kişiselleştirilmesi –  İnsanlar web ile etkileşim içine girdiklerinde tercih ettikleri içerik ve sunum açısından farklılaşırlar.
  4. Tüketiciler veya bireysel kullanıcılar hakkında bilgi edinmek – Buradaki problem müşteri veya kullanıcının ne yaptığı ve ne istediğinin uygulayıcılar tarafından bilinmek istenmesidir. Kullanıcı davranışını öğrenme ihtiyacı ise web sitesinin tasarım ve çalışmasının, kullanıcı tercih ve kullanım şekilleri için optimize edilme gerekliliğinden kaynaklanmaktadır. Bu pazarlama ve site yönetimini kolaylaştırma açısından önemlidir. Son aşaması bireysel kullanıcı için yapılan kişiselleştirme yani tek bir kullanıcı için bile sitenin uyarlanmasıdır.
Web madenciliği terimini ilk kullanan 1996 yılında Etzioni’dir [13]. Etzioni, web üzerindeki verinin yeteri kadar yapılanmış olduğu hipotezini ortaya atmakla başlar ve web madenciliğinin alt çalışma süreçlerini belirler. Oren Etzioni’ye göre Web Madenciliği, WWW üzerindeki doküman ve servislerden otomatik olarak bilgi çıkartmak ve keşfetmek için veri madenciliği tekniklerinin kullanımıdır. Kosala ve Blockeel [11] ve Qingyu Zhang ve Richard s. Segall [12]  Web madenciliğinin aşağıdaki alt çalışma süreçlerine bölünmesini önerir:
  • Kaynak Keşfi:  Web üzerindeki alışılmadık doküman ve servislerin bulunmasıdır.
  • Veri seçimi ve Önişleme: Yeni keşfedilen Web kaynaklarından belirli verilerin otomatik olarak çıkartılıp önişlemeye tabi tutulmasıdır.
  • Genelleştirme: Tekil web sitelerindeki ve birden çok web sitesindeki genel ya da ortak örüntülerin ortaya çıkartılmasıdır.
  • Analiz: Ortaya çıkan örüntülerin doğrulanması ve yorumlanmasıdır.
  • Görselleştirme: Etkileşimli bir analizin sonuçlarını görsel ve daha kolay anlaşılabilir şekilde sunmak.

TTB1

 

Web Madenciliği Türleri

Kosala ve Blockeel [12], madenciliği yapılacak verinin tipine göre, bilgi için madencilik, bağlantı yapısı üzerinde madencilik ve kullanıcı gezinme örüntüleri için madencilik olmak üzere üç çeşit web madenciliği kategorisi önerirler.
TTB2

Kaynaklar

9. Sankar K.Pal, Varun Talwar, Pabitra Mitra, “Web Mining in Soft Computing Framework:Relevance, State of the Art and Future Directions”, IEEE Transactions on Neural Networks, Vol.13, No.5, September 2002
10. Brijendra Singh, Hemant Kumar Singh,  “Web Data Mining Research: A Survey”,Department of Computer Sceience,University of Lucknow, 2010 IEEE 978-1-4244-5967-4
11. Qingyu Zhang and Richard s. Segall,” Web mining: a survey of current research,Techniques, and software”, in the International Journal of Information Technology & Decision Making Vol. 7, No. 4 (2008) 683– 720
12. Kosala and Blockeel, “Web mining research: A survey,” SIGKDD:SIGKDD Explorations: Newsletter of the Special Interest Group (SIG) on Knowledge Discovery and Data Mining, ACM, Vol. 2, 2000
13. O.Etzioni. “The World Wide Web: Quagmire or Gold Mining”, Communicate of the ACM, (39)11:65-68, 1996;
Turgay Tugay  Bilgin tarafından yazılmıştır

About Turgay Tugay Bilgin

Lisans, Yüksek Lisans ve Doktora eğitimini Marmara Üniversitesinde tamamladıktan sonra 2 yıl boyunca bankacılık uygulamaları geliştiren bir firmada yazılım uzmanı, ve bir bilgi teknolojileri eğitim merkezinde eğitmen olarak çalışmıştır. 2003 yılında Maltepe Üniversitesinde başladığı akademisyenlik hayatına halen aynı üniversitenin Yazılım Mühendisliği bölümünde Yrd. Doç.Dr. olarak devam etmektedir. Veri Madenciliği, makine öğrenmesi algoritmaları, web madenciliği ve metin madenciliği konularında akademik çalışmalar yürütmekte ve bu alanlarda çeşitli firmalara akademik danışmanlık hizmetleri vermektedir.

İlginizi Çekebilir

Informatica Ile Incremental Süreçlerin Yönetimi-2 (SCD Type-2 Current Flag Column)

Merhabalar, Önceki yazımda Incremental süreç nedir, nasıl bir ihtiyaç sonucu uygulamaya başlarız, SCD Type ların …

Bir Cevap Yazın