Pazar , 13 Temmuz 2014
Son Haberler
Anasayfa / MAKALELER / İş Zekası / Orange ile Veri Madenciliği

Orange ile Veri Madenciliği

Veri madenciliğinin önemi gün geçtikçe artmaktadır.Eğer bir veri ambarınız varsa ve o verilerden sadece rapor almak ve geçmişe yönelik bilgileri saklamak istiyorsanız,aslında veri ambarına biraz haksızlık etmiş oluyorsunuz :)

Veri madenciliği ile geleceğe yönelik çıkartımlarda,tahminlemelerde bulunursunuz.Tabi bu tahminlemeyi geçmişten alınan verilerden yapabilirsiniz.Şirketlerin en büyük amaçlarından bir taneside müşteri davranışı tahmin etmektir.Hangi müşterim hangi tarzda giyiniyor,hangi müşterim ne zaman aralıklarında hangi kampanyadan yararlanarak konuşuyor,hangi müşterim nasıl bir araba almak ister..vb gibi sorular cevap bulmaktır veri madenciliği.

Veri madenciliği ve onların çeşitlerini bu makalemde anlatmayacağım.Ama şimdilik buraya göz atabilirsiniz.Bu makalemde basit bir veri madenciliği demosu yapacağız.Veri madenciliğinde kullanılan open source araçlardan bazıları şunlardır;Orange,RapidMiner,Weka,JhelpWork,Knime.

Görselliği ve tasarım avantajları  ile hoşuma giden Orange ‘ta denemeler yapacağız.Ama kısaca Orange nedir biraz bahsedelim;

Orange C++ tabanlı Python dili ile entegre çalışabilen ve yönetilebilen,çok çeşitli widget(küçük araç,yardımcı araçlar) ları olan bir programdır.Veriyi sınıflara,gruplara ayıran hiyerarşik yapıyı destekleyen sürükle bırak ile yönetebilen eğlenceli bir program olan Orange ,birçok veri formatınıda desteklemektedir.

Daha fazla ayrıntı için buraya bakmanızı öneririm.Şimdi demomuzu yapmaya başlayalım;

1-      Orange programını  sitesinden indiriyoruz

image001

 

Programı kurmak çok kolay next-next şeklinde ilerliyoruz.İsteyenler ayrıca eklentilerini indirip kurabilir.

image002

 

Programı kurduktan sonra başlat menusunden şekildeki gibi açıyoruz.Yeni başlayanlar için dökümanları mevcut.Ayrıca Orange dosyasına tıklayarak kurduğunuz dizine gidebilirsiniz

image003(2)

 

Orange Canvas ikonuna tıkladıktan sonra karşınıza şu şekilde bir ekran çıkıyor.

image004(3)

 

Şimdi bu demoda hangilerini kullanacağımızı bi görelim

5-      File ;Dosyalardan gelen verileri almak için kullanılır. veriler genellikle “.tab” formatındadır.Şekilde gördüğümüz gibi “Data” tabının en başında yer almaktadır.

image006(3)

 

File’ı alanımıza sürükledim ve File’a çift tıklayarak yukardaki ekran görüntüsünü elde ettim.Araba.tab formatındaki veri dosyamı okudu.1728 örnek datam ve 5 tane özniteliğim var.Bunları az sonra göreceğiz.Araba.tab dosyanızda bazı verileri değiştirirseniz Reload düğmesine bastığınızda otomatik olarak yenileyecektir.

6-      Dosyamdan gelen verileri bir tabloya atarak nasıl veriler olduğunu görmek için aşağıdaki şekilde Data Table sürükleyip bıraktım ,aralarındaki bağlantıyı kurduktan sonra üzerine çift tıkladım.(2 widget arasındaki çizgileri birleştirdim)

image008(4)

 

image010(1)

 

Eğer bir kümeleme ve analiz çıkartımında bulunacaksanız Data Sampler kullanmaz zorundasınız.Aşağıdaki şekilde görüldüğü gibi Data Sampler’ı ,File ile birleştirdim.

Sampling type ile mevcut verinin %30 unu random olarak aldım.İsteğinize göre veri setinizi arttırabilir veya azaltabilirsiniz.

image012(3)

 

Visualize tabına tıklayarak Linear Projection ekledim ve daha sonra Data Sampler ile birleştirdim.

image013(1)

 

Visualize tabına tıklayarak Linear Projection ekledim ve daha sonra Data Sampler ile birleştirdim.

image015(2)

 

Çift tıklayarak verinin nasıl göründüğüne bakalım.Ben arabaların satış miktarını ölçmek için veriyi analiz etmek istiyorum.Şekilde görüldüğü gibi kapı-kişi sayısı-araç boyutu ve güvenlik seviyesine göre araba satış oranları kümelenmiş halde gösteriliyor.Kapı sayısının ve kişi sayısının fazla olduğu arabalar çok az satılırken araç boyutu ve güvenliğin değerleri arttıkça kümelememizdeki nokta sayısı artıyor.

image015(2)

 

Şeklimizi Projections tabından çeşitli şekillere sokabiliriz.Dönderebilir ,aralıkları büyütüp,küçültebilir,renkleri ile oynayabiliriz..vb

 

image017(2)

 

image019(4)

 

 

 

Veriyi farklı formatlarda görebilmek için  Scatterplot ve Radviz ile nasıl göründüğünede bakalım.

image021(3)

image023(1)

 

 

 

Şimdide verimiz hakkında net bir bilgi almak için  Attribute Statistics ile araç boyutuna göre satış miktarını gösterelim.Tabi burada yapılan işlemler ,sürükle bırak ve Data Sampler ile arasındaki bağlantıyı yaptıktan sonra gerçekleştirebiliyoruz

 

 

image025(1)

 

Orange ile ilgili ilk makalemiz burada bitiyor.Adım adım veriler ile ilgili nasıl bir çalışma yapacağımızı ilerleyen günlerde anlatacağım.Faydalı olması dileğiyle.

Hakkında Yusuf Arslan

Sakarya Üniversitesi Bilgisayar Mühendisliği bölümünü bitirdikten sonra kariyerine Datawarehouse-Database Uzmanı olarak devam etmektedir Sitenin kurucusu ve yazarıdır. [email protected] adresinden bana ulaşabilirsiniz.

Cevapla

E-posta adresiniz yayınlanmayacak. Required fields are marked *

*


Şu HTML etiketlerini ve özelliklerini kullanabilirsiniz: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>