Rastgele Yazılar : Datawarehouse Sistemlerine Genel Bakış
Rastgele Yazılar : Transportable Tablespace Yöntemi ile Taşınamayan Nesnel...
Rastgele Yazılar : Data Guard StandBy DB'de Archivelog "In-Memory" Durumu
Rastgele Yazılar : Oracle BI Serverlerinin Restart Edilmesi
Rastgele Yazılar : Data Guard Broker Konfigurasyonu ve Switchover Operasyo...
Rastgele Yazılar : SQL Server 2008 Database Mirroring -2
Rastgele Yazılar : Sap Tarihi
Rastgele Yazılar : Expdp - Impdp (Datapump) Komutları ve Kullanımı Üzerine...
Rastgele Yazılar : VERI KALITESI ve 7 MAJOR HATALI ALGI
Rastgele Yazılar : Web Madenciliği -- Bölüm 1
Veri madenciliğinin önemi gün geçtikçe artmaktadır.Eğer bir veri ambarınız varsa ve o verilerden sadece rapor almak ve geçmişe yönelik bilgileri saklamak istiyorsanız,aslında veri ambarına biraz haksızlık etmiş oluyorsunuz J
Veri madenciliği ile geleceğe yönelik çıkartımlarda,tahminlemelerde bulunursunuz.Tabi bu tahminlemeyi geçmişten alınan verilerden yapabilirsiniz.Şirketlerin en büyük amaçlarından bir taneside müşteri davranışı tahmin etmektir.Hangi müşterim hangi tarzda giyiniyor,hangi müşterim ne zaman aralıklarında hangi kampanyadan yararlanarak konuşuyor,hangi müşterim nasıl bir araba almak ister..vb gibi sorular cevap bulmaktır veri madenciliği.
Veri madenciliği ve onların çeşitlerini bu makalemde anlatmayacağım.Ama şimdilik buraya göz atabilirsiniz.Bu makalemde basit bir veri madenciliği demosu yapacağız.Veri madenciliğinde kullanılan open source araçlardan bazıları şunlardır;Orange,RapidMiner,Weka,JhelpWork,Knime.
Görselliği ve tasarım avantajları ile hoşuma giden Orange ‘ta denemeler yapacağız.Ama kısaca Orange nedir biraz bahsedelim;
Orange C++ tabanlı Python dili ile entegre çalışabilen ve yönetilebilen,çok çeşitli widget(küçük araç,yardımcı araçlar) ları olan bir programdır.Veriyi sınıflara,gruplara ayıran hiyerarşik yapıyı destekleyen sürükle bırak ile yönetebilen eğlenceli bir program olan Orange ,birçok veri formatınıda desteklemektedir.
Daha fazla ayrıntı için buraya bakmanızı öneririm.Şimdi demomuzu yapmaya başlayalım;
1- Orange programını sitesinden indiriyoruz
2- Programı kurmak çok kolay next-next şeklinde ilerliyoruz.İsteyenler ayrıca eklentilerini indirip kurabilir.
3- Programı kurduktan sonra başlat menusunden şekildeki gibi açıyoruz.Yeni başlayanlar için dökümanları mevcut.Ayrıca Orange dosyasına tıklayarak kurduğunuz dizine gidebilirsiniz
4- Orange Canvas ikonuna tıkladıktan sonra karşınıza şu şekilde bir ekran çıkıyor.
Şimdi bu demoda hangilerini kullanacağımızı bi görelim
5- File ;Dosyalardan gelen verileri almak için kullanılır. veriler genellikle “.tab” formatındadır.Şekilde gördüğümüz gibi “Data” tabının en başında yer almaktadır.
File’ı alanımıza sürükledim ve File’a çift tıklayarak yukardaki ekran görüntüsünü elde ettim.Araba.tab formatındaki veri dosyamı okudu.1728 örnek datam ve 5 tane özniteliğim var.Bunları az sonra göreceğiz.Araba.tab dosyanızda bazı verileri değiştirirseniz Reload düğmesine bastığınızda otomatik olarak yenileyecektir.
6- Dosyamdan gelen verileri bir tabloya atarak nasıl veriler olduğunu görmek için aşağıdaki şekilde Data Table sürükleyip bıraktım ,aralarındaki bağlantıyı kurduktan sonra üzerine çift tıkladım.(2 widget arasındaki çizgileri birleştirdim)
Eğer bir kümeleme ve analiz çıkartımında bulunacaksanız Data Sampler kullanmaz zorundasınız.Aşağıdaki şekilde görüldüğü gibi Data Sampler’ı ,File ile birleştirdim.
Sampling type ile mevcut verinin %30 unu random olarak aldım.İsteğinize göre veri setinizi arttırabilir veya azaltabilirsiniz.
Visualize tabına tıklayarak Linear Projection ekledim ve daha sonra Data Sampler ile birleştirdim.
Çift tıklayarak verinin nasıl göründüğüne bakalım.Ben arabaların satış miktarını ölçmek için veriyi analiz etmek istiyorum.Şekilde görüldüğü gibi kapı-kişi sayısı-araç boyutu ve güvenlik seviyesine göre araba satış oranları kümelenmiş halde gösteriliyor.Kapı sayısının ve kişi sayısının fazla olduğu arabalar çok az satılırken araç boyutu ve güvenliğin değerleri arttıkça kümelememizdeki nokta sayısı artıyor.
Şeklimizi Projections tabından çeşitli şekillere sokabiliriz.Dönderebilir ,aralıkları büyütüp,küçültebilir,renkleri ile oynayabiliriz..vb
Veriyi farklı formatlarda görebilmek için Scatterplot ve Radviz ile nasıl göründüğünede bakalım.
Şimdide verimiz hakkında net bir bilgi almak için Attribute Statistics ile araç boyutuna göre satış miktarını gösterelim.Tabi burada yapılan işlemler ,sürükle bırak ve Data Sampler ile arasındaki bağlantıyı yaptıktan sonra gerçekleştirebiliyoruz
Orange ile ilgili ilk makalemiz burada bitiyor.Adım adım veriler ile ilgili nasıl bir çalışma yapacağımızı ilerleyen günlerde anlatacağım.Faydalı olması dileğiyle.