Veri Madenciliği ve Microsoft İş Zekası (BI)
Veri madenciliği; verilerdenüstü kapalı, çok net olmayan , önceden bilinmeyen ancak potansiyel olarak kullanılabilir bilgi veörüntülerinçıkarılması olarak tanımlanabilir.İşletmelerde, operasyonel sistemlerde gerçekleşen işlemler sonucu çeşitli veriler üretilmektedir. Geleneksel ticarette geleneksel işlemler sonucu ortaya çıkan verilere, çağımızda, elektronik işlemler sonucu çıkan veriler de eklenmiştir.İşletmelerdeki bilgi sistemlerinin, isim ve kullandıkları yöntemler açısından geçirdiği aşamaları şu şekilde sıralamak mümkündür:"Yönetim bilişim sistemleri"nin (Management Information System -MIS) stratejik karar verme sürecinde kullanılmaya başlamasıyla "Karar destek sistemleri" (Decision Support System -DSS) ortaya çıkmıştır. Karar destek sistemlerinin istenilen bilgiyi doğru ve zamanında üretebilmesi için bu sistemlerin farklı bir yapıda kaydedilen veri ile beslenmesi gereği doğmuştur.
E-işletmelerde işlemlerden, operasyonel sistemlerden elde edilen verilerin depolandıkları ortamlar veri ambarlarıolarak adlandırılmaktadır. Bu veriler daha sonra veri madenciliği teknikleriyle anlamlı bilgilere dönüştürülmekte ve stratejik karar verme sürecinde kullanılmaktadır.Veri ambarlarında tutulan veriler, işletmelerin faaliyetlerinden elde edilmiş olan, ancak farklı bir yapıda ve farklı bir fiziksel ortamda tutulan, bilgi üretmeye yönelik verilerdir. Bu verilerden bazılarının her departmanın kendi kullanım amacına hizmet edecek şekilde ayrılmasıyla "data mart" olarak isimlendirilen her departmana özel veri tabanları oluşmuştur. Veri madenciliği ise bu verilerden çeşitli teknikler, algoritmalar ve sorgulamalarla anlamlı bilgiler keşfetmektir. Veriye dayalı stratejik karar destek sistemlerinin tümü sonuçta "iş zekası (business intelligence) çözümleri" olarak isimlendirilmektedir.OLAP sistemleri; kullanıcıların hızlı analiz yapmalarını sağlayan iş zekâsı sistemleridir.
İş zekası çözümleri için Microsoft İş Zekası (BI) kullanılabilir. Microsoft İş Zekası (BI) Microsoft® SQL Server® özelliklerinin üzerine kurulmuştur; Microsoft® SharePoint® and Microsoft® Office ile birlikte tam donanımlı bir bilgi platformu sunar. Kuruluşların değişen ihtiyaçlarına hızlı cevap verebilmek için esneklik sağlamaktadır. Microsoft İş zekası çözümleri kuruluşlarda IT verimliliğini düşük maliyetle artırmak mümkündür. Bugünü ve yarını görerek analizler ve raporlamalar yapmayı sağlar. Bunun için Microsoft® SQL Server® ‘ın altyapısını kullanır. SQL Server Analysis Services, OLAP küplerinden anlamlı verilerin elde edilmesine ve analizlerde kullanılmasına olanak sağlamaktadır.
Microsoft iş zekası; kuruluşlar ile ilgili karmaşık veri setlerinden raporlamalar yaparak oluşturulan pano (dashboard) ile yöneticilerin işleriyle alakalı bilgileri analiz etmesine olanak tanır. Yöneticiler analiz edilmiş verileri panolar sayesinde kolaylıkla yorumlayabilirler. Kuruluşun bugünü ve yarını ile ilgili öngörüde bulunma konusunda Microsoft BI teknolojisinin performansı oldukça yüksektir. SQL Server Analysis Services ile OLAP datalarından anlamlı veriler çekerek veri madenciliği yapmak mümkündür. Microsoft veri madenciliği çözümleri, çalışanların basit veri analizinin ötesine geçerek bilgi dahilindeki gizli eğilimleri, sorunları veya ilişkileri tanımlamalarını kolaylaştırır.
Kaynaklar: http://www.microsoft.com/applicationplatform/tr/tr/Platform-Solutions/Business-Intelligence.aspx
Veri Madenciliği Proje Süreci
Bu yazımda veri madenciliği modelleme sürecindeki basamaklardan bahsedeceğim. Veri madenciliği modelleme sürecinde bulunmamış okuyucular için bir veri madenciliği projesindeki basamakları anlamak adına faydalı olacağını düşünüyorum. Daha önceden modelleme tecrübesi olanlar için de kullanılan süreçle yazımda geçen süreci kıyaslamak açısından faydalı olabilir.
Veri madenciliğini anlatmaya birkaç veri madenciliği tanımını inceleyerek başlayalım:
Principles of Data Mining by Hand, David:
‘Data mining is the analysis of (often large) observational datasets to find unsuspected relationships and to summarize the data in novel ways that are both understandable and useful to the data owner.’
Applied Data Mining by Paolo Giudici:
Data mining is the process of selection, exploration, and modeling of large quantities of data to discover regularities or relations that are at first unknown with the aim of obtaining clear and useful results for the owner of the database
Vikipedi:
Büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır.
Yukarıdaki 3 tanımda bazı kelimeleri bold yaptım. Bu kelimeleri gruplayarak incelersek veri madenciliğinin anahtar kelimelerini yakalamış oluruz.
Veri Boyutu:
(often large) observational data sets
Large quantities of data
Büyük veri yığınları
Çıktı:
Understandable, useful and unsuspected relationships
Unknown, useful results
Gelecekle ilgili tahmin
Yöntem:
Novel ways
Process of selection, exploration, and modeling
Bilgisayar programı kullanarak
Her üç tanımda da belirttiğimiz gibi üç farklı alana vurgu vardır. Her şeyden önce veri madenciliği yüksek hacimde veriye ihtiyaç duyar. Kurumsal veri ambarları bu ihtiyaca cevap verirler. İkinci olarak, veri madenciliği kompleks bir takım algoritmalarla yapılır. SAS, SPSS gibi yazılımlar da algoritma ihtiyacına cevap verir. Tanımlardaki bir diğer vurgu da amaç ve çıktı ile alakalı. Veri madenciliğinin amacı, öncesinde bilinmeyen ama bir iş değeri olan bir takım bilgileri ortaya çıkarmaktır. Söz gelimi, bir GSM Operatörü için müşterilerinin %90’ının siyah gözlü olması bilgisi bir veri madenciliği projesinin çıktısı olmamalı.
Veri Madenciliği Proje Süreci
Her kurumun, kişinin benimsediği kendine has süreçleri muhakkak vardır ama temelde veri madenciliği proje sürecini aşağıdaki basamaklarda tanımlayabiliriz.
- Problem tanımının yapılması
- Veri kümelerinin oluşturulması
- Modellerin geliştirilmesi
- Modellerin değerlendirilmesi
- Modelin deploy edilmesi
- Model geçerliliğinin kontrolü
Problem tanımının yapılması:
Bu basamak aslında çok basit bir basamak olarak görülüyor olabilir ancak tüm projeye yöne verecek basamak olması açısından çok önemlidir ve dikkatle yapılmalıdır.
Problem zaten bellidir, tanımını yapmak gerekmez çünkü ortadadır her şey zaten diye düşünenler olabilir. Evet, problem veya bulunmak istenen şey aslında nettir ama bu işi veri madenciliği projesi seviyesinde düşünmek önemlidir. Problemi ve muhtemel sonucunu düşünürken bulunacak sonucun gerçekten problemin çözümü olup olamayacağı iyi analiz edilmelidir.
Mesela herhangi bir sektörde yapılabilecek bir müşteri tutma projesi ele alalım. Bu projeyi gerektirecek problem bellidir. Bir şirketin müşterileri o şirketten ayrılıyordur ve müşteriyi tutmak için bir proje geliştirmek isteniyordur. Problem net gibi görünüyor ama bu problemi veri madenciliği projesi seviyesine çekebilmek lazım. Gidecek müşteriyi tahmin edebilsek gitmesini engelleyecek aksiyonlarda bulunabiliriz değil mi? O halde problemi müşterinin gitme ihtimalini tahmin etmeye dönüştürmüş olduk. Bunu da netleştirmek lazım çünkü müşterinin gitme olasılığı havada bir kavramdır. Problemin, müşterinin yarın gitme ihtimalini hesaplamak olması işi biraz daha netleştirir ama yarın gidecek müşteriyi bilmek bize birşey kazandırmaz çünkü aksiyon alabilmek için daha fazla zamana ihtiyaç var o halde bir müşterinin önümüzdeki bir ay içinde gitme ihtimalini hesaplamak olarak problemimizi finalize edebiliriz.
Sonuç olarak, bu basamakta görünen problemi veri madenciliği seviyesine çekiyoruz ve üretilecek muhtemel sonucun aksiyon almaya açık olduğunu da garantiliyoruz.
Veri kümelerinin oluşturulması:
Problemi netleştirdikten sonra probleme özel veri hazırlanması gerekiyor. Veri hazırlama kısmı bir veri madenciliği projesinin en fazla zaman alan kısmıdır. Veri ambarında mevcut birtakım verilerin yanısıra birçok başka sistemden veri alma ihtiyacı doğacaktır. Verinin kalitesini sağlama, entegrasyonu, temizliği gibi işlemler yapılmalıdır ki bütün bunlar vakit alıcı işlerdir. Bu basamağın sonucunda genelde müşteri bazlı olarak birçok indikatör kolon ve bir tane de hedef kolondan oluşan bir tablo ortaya çıkar. İndikatör kolondan kastım müşteriyle ilgili ve problem için belirleyici olacağı düşünülen kolonlar. Hedef kolon da tahmin etmeye çalıştığımız sonucun geçmişte gerçekleşen örneklerinden oluşan kolondur. Mesela müşterinin ne kadar zaman daha müşterimiz olarak kalacağını tahmin etmeye çalıştığımızı varsayalım bu durumda indikatör kolonlar müşteriyle ilgili demografik ve davranışsal tüm bilgiler hedef kolon da mevcut müşterilerin ilk müşteri olmasından bu yana geçen zamandan oluşabilir.
Bunlarında yanında bu basamakta yapılması gereken ve sonuca da direk etkili olacak bir işlem de yeni değişkenler, indikatörler yaratılmasıdır. Mesela elimizde müşterinin toplam işlem sayısını gösteren bir indikatör kolon olduğunu varsayalım. Belki de bu kolonu toplam işlem sayısı 10’dan küçükse 0 büyükse 1 olacak şekilde transform etsek sonuç çok daha iyi çıkabilir. Bu tarz indikatörler üretmek için beyin fırtınası seansları yapmak faydalı olacaktır.
Modellerin geliştirilmesi:
Verimizi de hazırladıktan sonra artık veri madenciliği modelimizi geliştirebiliriz. Modeli geliştirme işi genelde bir yazılım kullanılarak yapılır ki en çok kullanılan yazılım da SAS Enterprise Miner’dır.
Bu yazılım metod olarak bir çok seçenek sunar: Regression, Decision Tree, Neural Network, Support Vector Machine, vb.
Farklı yöntemler kullanarak veya bir yöntemi farklı parametrelerle kullanarak değişik modeller geliştirebiliriz.
Modellerin değerlendirilmesi:
Geliştirdiğimiz birçok modelden en iyiyi seçme işleminin yapıldığı basamaktır. Veri Madenciliği yazılımları model değerlendirme için de bir takım metotlar sunarlar. Bu metotların sonucunu hem sayısal hem de görsel olarak tüm modeller için inceleyip ona göre en iyi modeli belirlemek gerekir.Bu değerlendirmeyi yapabilmek için aşağıdaki yöntemleri bilmek gerekir.
Değerlendirme Yöntemleri: Lift Chart, Concentration Chart, Receiver Operation (ROC) Curve ,Score Distribution
Modelin deploy edilmesi:
Modellerin değerlendirilmesi basamağından sonra artık elimizde bir tane final model var. Artık bu modelimizi birinci basamaktaki problemimize uygulayabiliriz. Bu defa modeli oluşturduğumuz veri dışındaki bir veri kümesine(başka zaman aralığındaki) modeli uygularız.Ayrıca eğer modelin belli periyotlarla yeniden çalışması isteniyorsa yapılması gereken otomasyon işleri de bu basamakta yapılır.Bu basamakta çıkan model sonucuna göre bir takım aksiyonlar alınabilir.Mesela eğer bir sms kampanyası yapılacaksa bu model sonucunda en büyük skoru alan müşteriler seçilerek onlara sms atıılır.
Model geçerliliğinin kontrolü:
Deploy ettiğimiz model her geçen gün güncelliğini kaybeder çünkü zamanla bir takım şartlar değişir ve modeli geliştirdiğimizde sonucu etkileyen değişkenler artık etkisiz kalır veya yeni bir takım parametreler daha etkili olmaya başlayabilir. Bu durumda üretilen skorlar başarısız olacaktır. Bunu engellemek için her model kullanıldığında performansını ölçmek gerekir. Bu kontrolü model değerlendirmesinde bahsettiğimiz yöntemlerle yapabiliriz ve eğer model performansı düşük çıkarsa yeniden ikinci basamağa dönüp güncel verilerle gerekli veri kümelerini oluşturup model geliştirme süreci tekrarlarız.
Özetlemek gerekirse, bir veri madenciliği projesinde ilk basamak olarak problemin net bir şekilde tanımlanması gerekir ardından bu probleme uygun veri kümeleri ve bu veri kümeleri kullanılarak indikatör değişkenler ve hedef kolon(lar)’dan oluşan bir final tablo oluşturulur. Bu tablo üzerinde çalışılarak değişik modeller geliştirilir. Sonrasında bu modellerden en iyisi seçilerek deploy edilir ve sonuca uygun aksiyonlar alınır.Model geçerliliğini kaybettiğinde de tekrar yeni veri kümeleriyle yeni model geliştirilip deploy edilir ve bu bir döngü halinde devam eder.
Güven Gül
Oracle Veri Ambarını Optimize Ediyor
Oracle, iletişim servis sağlayıcılarının (İSS) hızla artmakta olan veri hacimlerini uygun maliyetlerde yönetmelerine ve analiz etmelerine yardımcı olmak için “Oracle Communications Data Model”i tanıttı.
“Oracle Communications Data Model” ile İSS’ler, iletişim sektörüne özel raporlama, analitik ve veri madenciliği özelliklerine sahip, standart temelli bir kurumsal veri ambarını hızla kurarak zamanı değere dönüştürmeyi başarabiliyorlar.
“Oracle Communications Data Model”, “Oracle Exadata” ve “Oracle Business Intelligence (BI) Foundation”dan oluşan kombinasyon, iletişim sektörü için en geniş kapsamlı veri ambarı ve iş zekası çözümünü oluşturuyor.
“’Oracle Communications Data Model’, modern iletişim servisi sağlayıcılarıyla ilişkili geniş bir iş alanı yelpazesini kapsıyor. Çözüm veri modeli ve iş zekası kontrol paneli, KPI’lar, OLAP küpleri ve veri madenciliği modellerini içeren paket şablonlarla birlikte geniş bir kapsama sahip. Özel bir veri ambarı oluşturma ve kurmada bize büyük bir zaman tasarrufu sağlıyor ve gelişmiş bir analitiği hızlı ve etkin bir şekilde kullanmamıza da izin veriyor.” - NTT Comware Corporation İdari Müdürü Yasuki Hayashi
“Oracle Communications Data Model”, veri ambarı sistemini genişletmek isteyen Hong Kong Broadband Network tarafından üç ay içinde kullanıma geçmiş olacak. Alanında lider servis sağlayıcılardan olan şirket, son altı ayda abone sayısını %37 artırırken, ayrılan müşteri sayısını da %1’den daha az bir seviyeye indirmeyi başarmış durumda.
“Oracle Communications Data Model”, müşteri yönetimi, segmentasyon, ürün geliştirme ve şebeke analizi gibi önemli alanları karşılayan gömülü analitik ve sektöre özel bir şema sağlıyor.
“Veri hacimleri, iletişim servisi sağlayıcılarının yeni nesil ağları genişletmeleri, yeni servisler sunmaları ve yeni iş modellerini benimsemeleri ile birlikte büyümeye devam edecektir. Müşteri değeri, ağ değeri ve müşterinin ayrılma olasılığı gibi veriler üzerine önemli yaklaşımları yakalamak için etkin ve güvenilir veri ambarlarına olan ihtiyaç da gittikçe artacaktır. Oracle, ‘Oracle Communications Data Model’ ile iletişim sektörüne yönelik ihtiyaçları karşılamak için tasarlanmış olan veri ambarı araçları sunarak, bu ihtiyaçları karşılama konusundaki kararlılığını göstermiş oldu.” - IDC, Ağ Yazılımları Program Direktörü Elisabeth Rainge
Oracle’ın bu yeni çözümü sayesinde İSS’ler, önemli verileri etkin bir şekilde yakalayıp izleyebiliyorlar. Ayrıca İSS’ler, geliştirmeyi desteklemek için onları kullanışlı bilgilere dönüştürebiliyor ve aşağıdaki özellikleri kullanarak yeni nesil servisler sunabiliyorlar:
- Şebeke güvenilirliği istatistikleri, provizyon metrikleri ve müşteriler kaybı gibi 1.300’den fazla sektöre yönelik ölçüt ve önemli performans göstergeleri (KPI).
- İş bilgilerinin son derece hızlı bir şekilde boyutsal analizini sağlamak için gömülü OLAP küpleri.
- Özel eğilim ve tahmin analizi için gömülü veri madenciliği modelleri.
- Gelecekteki gereksinimleri desteklemek için kolaylıkla genişletilebilen, kablo, mobil, kablolu hattı ve internet gibi birden fazla iş hattı için destek.
Çağrı verileri kayıtlarının sorgulanma performansını 10 kat veya daha yüksek bir oranda iyileştirebilen “Oracle Exadata” da dahil olmak üzere, herhangi bir “Oracle Database 11g” platformu için uygun hale getirilmiş olan “Oracle Communications Data Model” sayesinde İSS’ler, daha önce Paylaşılan Bilgi Modeli olarak bilinen TM Forum Information Framework (SID)’ü içeren iletişim sektörü standartlarına uygun olarak, bir iletişim veri ambarının kurulumunu hemen başlatabilirler.
"TM Forum Conformance Mark, standart temelli, uygun maliyetli ve esnek çözümler arayan müşterilere güvence sağlamaktadır. TM Forum olarak ‘Oracle Communications Data Model’ çözümünün onaylanması konusunda Oracle ile çalışmaktan son derece memnuniyet duymaktayız. Başarılı bir tamamlama süreci üzerine bu sertifikasyon, 130’dan fazla birleşik varlığa sahip TM Forum Information Framework’ün bugüne kadar gerçekleşen en geniş ve en kapsamlı kurulumunu sunmaktadır.” - TM Forum, Yönetim Kurulu Başkanı ve CEO’su Keith Willets
http://www.bilgicozumleri.com/standart-temelli-model-daha-iyi-bir-is-ongorusu-icin-oracle-veri-ambarini-optimize-ediyor
Veri Madenciliği(Data Mining) Nedir ve Nerelerde Kullanılır-1
Merhaba Arkadaşlar,
Sitemize Oracle konusunda bilgilerini bizimle paylaşacak çok değerli bir arkadaşımız daha katıldı.Ogan Özdoğan bloğunda paylaştığı yazıları burada yayınlıyor olacağız.Sizde sitenizde,bloğunuzda,grubunuzda..yazılarınızı bizimle paylaşmak isterseniz Bu e-Posta adresi istek dışı postalardan korunmaktadır, görüntülüyebilmek için JavaScript etkinleştirilmelidir adresine mail atmanız yeterli olacaktır.
Ogan’a şimdiden teşekkür ediyoruz.Ve Ogan'ın ilk makalesine göz atalım..
Veri Madenciliği(Data Mining) Nedir ve Nerelerde Kullanılır-1
özetleme, değişikliklerin analizi, sapmaların tespiti gibi belirli sayıda teknik yaklaşımları içerir (William J. Frawley, Gregory Piatetsky – Shapiro, Cristopher J. Matheus). Başka bir deyişle, veri madenciliği, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir.
Temel olarak veri madenciliği, veri setleri arasındaki desenlerin ya da düzenin, verinin analizi ve yazılım tekniklerinin kullanılması ile ilgilidir. Veriler arasındaki ilişkiyi, kuralları ve özellikleri belirlemekten bilgisayar sorumludur. Amaç, daha önceden fark edilmemiş veri desenlerini tespit edebilmektir. Veri madenciliğini istatistiksel bir yöntemler serisi olarak görmek mümkün olabilir. Ancak veri madenciliği, geleneksel istatistikten birkaç yönde farklılık gösterir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ya da görsel sunumlara çevrilebilecek nitel modellerin çıkarılmasıdır. Bu bağlamda, veri madenciliği insan merkezlidir ve bazen insan – bilgisayar arayüzü birleştirilir. Veri madenciliği sahası, istatistik, makine bilgisi, veri tabanları ve yüksek performanslı işlem gibi temelleri de içerir.
Veri madenciliği, günlük yaşamda birçok şekilde kullanılabilmektedir. Bunlardan bazıları aşağıdaki gibi sıralanabilir:
Hastanelere yapılan tedavi taleplerinin bölgelere, zamana ve ihtiyaca göre değerlendirmesi salgın hastalık riskinin ilk aşamada tespiti, kontrolü ve kaynak planlama açısından faydalı olur.
Kaçak enerji kullananların profillerini tespit eden bir model, olası kaçak enerji kullanıcılarını tahmin etmeyi sağlayacak, düşük maliyet ile kaçaklarla etkin mücadele edilmesine olanak tanıyacaktır.
Karayollarının bölgelere ve zamana göre yoğunluklarını öngörme amaçlı bir çalışma doğru zamanda doğru kaynak planlaması ile örneğin kaza oranlarının asgariye indirilmesini sağlayacaktır.
Kamu kurumları destek programlarını uygularken, verilecek desteğin doğru miktarda ve doğru hedefleri olan kuruluşlara verilmesini sağlayacak kurumsal risk skorlaması yapılmasıyla uygulanan programların başarısı artar. Kredileri tahsis ederken ödememe riski olan profillerin tespit edilmiş olması batık kredi miktarlarını azaltır.
1.1. Örnek Uygulamalar
Veri Madenciliğinde kullanılan yaklaşımları aşağıda belirtildiği gibi sıralayabiliriz:
Algoritma: Verideki ilişki ya da örgüleri belirlemekte kullanılan programatik tekniklerdir.
Model: Algoritma tarafından belirlenen ilişkilerin tanımıdır. Bu tanım genelde kurallar kümesi, karar ağacı, denklemler ya da ilişkiler ağı şeklinde ifade edilir.
Vaka: Tekil bir nesneyle ilişkilendirilen özellikler ve ilişkiler koleksiyonudur. Gözlem olarak da adlandırılır. Vaka kümesi, aynı özellikleri paylaşan vakalar grubudur. Bunu bir tablo gibi düşünebilirsiniz, tablonun her satırında bir vaka yer alır. Tek tablo yerine birbiriyle ilişkili iki ayrı tablo kullanılması da sözkonusu olabilir. Bu durumda ana tablodaki her satır için yavru tabloda birden fazla satır bağlantılı olarak eklenebilir. Gözlem kümesi olarak da adlandırılır.
Bağımlı değişken (ya da tahmin edilen özellik): Algoritmanın tahmin etmek ya da gruplamak için model inşa edeceği değişken.
Bağımsız değişken (ya da tahmin eden özellik): Modeli inşa ederken kullanılan ve tarif edici bilgilere sahip olan değişkenlere denir. Bağımsız değişkenlerin içlerindeki çeşitli kombinasyonlar ele alınarak algoritma tarafından gruplamalar ve tahminler oluşturulur.
Kesikli ya da sürekli değişkenler: Kesikli ya da sürekli değerlere sahip olan sayısal kolonlar. Mesela maaşlarla ilgili gerçek değerleri içeren bir kolon süreklidir. Ama maaş aralıkları belirler ve gerçek değerleri bu aralıklara karşılık gelen 0, 1, 2… gibi bir sayı dizisiyle ifade ederseniz, kesikli bir kolon elde etmiş olursunuz. Daha yeni araçlarda, kesikli kolonlar için sayısal değerler yerine tarif edici karakter ifadelerine de izin verilmektedir. Kolon tipinin kesikli ya da sürekli olması, kullanılan veri madenciliği algoritmaları için önemli olabilmektedir.
Bağıntı: “Çocuk bezi alan müşterilerin %30’u bira da satın alır.” Sepet analizinde (basket analysis) müşterilerin beraber satın aldığı malların analizi yapılır. Buradaki amaç mallar arasındaki pozitif veya negatif korelâsyonları bulmaktır.
Korelasyon, olasılık kuramı ve istatistikte iki bağımsız değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir. Genel istatistiksel kullanımda korelasyon, bağımsızlık durumundan ne kadar uzaklaşıldığını gösterir.Korelasyon, olasılık kuramı ve istatistikte iki bağımsız değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir. Genel istatistiksel kullanımda korelasyon, bağımsızlık durumundan ne kadar uzaklaşıldığını gösterir.
Çocuk bezi alan müşterilerin mama da satın alacağını veya bira satın alanların cips de alacağını tahmin edebiliriz ama ancak otomatik bir analiz bütün olasılıkları göz önüne alır ve kolay düşünülemeyecek, örneğin çocuk bezi ve bira arasındaki bağıntıları da bulur.
Sınıflandırma: “Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler büyük, lüks araba satın alır.” Amaç bir malın özellikleri ile müşteri özelliklerini eşlemektir. Böylece bir müşteri için ideal ürün veya bir ürün için ideal müşteri profili çıkarılabilir. Örneğin bir otomobil satıcısı şirket geçmiş müşteri hareketlerinin analizi ile yukarıdaki gibi iki kural bulursa genç kadınların okuduğu bir dergiye reklâm verirken küçük modelinin reklâmını verir.
Regresyon: “Ev sahibi olan, evli, aynı iş yerinde beş yıldan fazladır çalışan, geçmiş kredilerinde geç ödemesi bir ayı geçmemiş bir erkeğin kredi skoru 825’dir.” Başvuru skorlamada (application scoring) bir finans kurumuna kredi için başvuran kişi ile ilgili finansal güvenilirliğini notlayan örneğin 0 ile 1000 arasında bir skor hesaplanır. Bu skor kişinin özellikleri ve geçmiş kredi hareketlerine dayanılarak hesaplanır.
Zaman İçinde Sıralı Örüntüler: “İlk üç taksitinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla kanuni takibe gidiyor.” Davranış skoru (behavioral score), başvuru skorundan farklı olarak kredi almış ve taksitleri ödeyen bir kişinin sonraki taksitlerini ödeme/geciktirme davranışını notlamayı amaçlar.
Benzer Zaman Sıraları: “X şirketinin hisse fiyatları ile Y şirketinin hisse fiyatları benzer hareket ediyor.” Amaç zaman içindeki iki hareket serisi arasında bağıntı kurmaktır. Bunlar örneğin iki malın zaman içindeki satış miktarları olabilir. Örneğin dondurma satışları ile kola satışları arasında pozitif, dondurma satışları ile salep satışları arasında negatif bir bağıntı beklenebilir.
Fark Saptanması: “Normalden farklı davranış gösteren müşterilerim var mı?” Amaç önceki uygulamaların aksine kural bulmak değil, kurala uymayan istisnai hareketleri bulmaktır. Bu da örneğin olası sahtekârlıkların saptanmasını (fraud detection) sağlar. Örneğin Visa kredi kartı için yapılan CRIS sisteminde bir yapay sinir ağı kredi kartı hareketlerini takip ederek müşterinin normal davranışına uymayan hareketler için müşterinin bankası ile temasa geçerek müşteri onayı istenmesini sağlar.
Doküman Madenciliği: “Arşivimde (veya internet üzerinde) bu dokümana benzer hangi dokümanlar var?” Amaç dokümanlar arasında ayrıca elle bir tasnif gerekmeden benzerlik hesaplayabilmektir (text mining). Bu genelde otomatik olarak çıkarılan anahtar sözcüklerin tekrar sayısı sayesinde yapılır.
Madencilik Yapısı(Mining Structure): Microsoft tarafından kullanılan bir tanımdır. Analysis Services’daki bir vaka kümesini temsil eder. Aslında alttaki veri yapısı üzerinde yer alan bir metadata katmanıdır. Verilerin temel özellikleri yanısıra veri madenciliği açısından çeşitli özelliklerini de barındırır. Bu yapı üzerine modeller kurulur.
Madencilik modeli: Belirli bir algoritmanın belirli bir madencilik çatısı üzerine uygulanmış halidir. Aynı çatı üzerine farklı algoritmalar ya da farklı parametrelerle birden fazla model oluşturabilirsiniz.
http://oganozdogan.blogspot.com
Veri, Veritabanı, Başarılı Veritabanı Uygulamaları İçin Dört Öneri
Hasan Tonguç Yılmaz bey’in Turkcell bloğunda yeralan yazılarını izniyle paylaşıyor olacağız.Öncelikle tanımayanlar için Tonguç Yılmaz kimdir kendi yazılarından tanıyalım.
SUMMARY OF PROFESSIONAL EXPERIENCE
09 Sep – Present Time Turkcell Teknoloji Revenue Oriented Business Intelligence Team, GebzeManager
08 Jun – 09 Sep Turkcell Teknoloji Datawarehouse and Data Mining Department , GebzeSpecialist (Oracle ETL Developer)
00 Dec – 08 Jun Turkcell Service and Product Development Department, İstanbulSpecialist (Oracle DBA/Developer)
96 July – 00 Dec Tekstilbank Information Technologies Department , İstanbulSystem Specialist (Database and Unix System Administrator)
EDUCATION
03 Sept – 05 Sept Işık University , İstanbulContemporary Management PhD Program
99 Sept – 02 July İstanbul Bilgi University , İstanbulMaster of Business Administration(MBA) Program
94 Sept – 99 July İstanbul Technical University , İstanbulComputer Engineering Department
91 Sept – 94 July Fethiye High School , Muğla
SUMMARY OF TECHNICAL SKILLS
Studying Oracle Database especially on Unix platforms since version 7.3,Moderator of OracleTURK group,Active Turkcell Akademi Internal Educator of Oracle products,Oracle Certified Professional(8i,9i,10g OCP-DBA Certificate) and Oracle ACE ,HP, Sun and Linux Administration experience,Database Modeling experience,One of the coaches of Turkcell Software Development Summer Internship Program(mastered ~100 internees from 2002 summer time to present time)
SOME RECENT PROJECTS
Turkcell Operational Reporting Platform ODS DevelopmentTurkcell Billing and Charging Platform Migration From Tru64 to AixTurkcell Datawarehouse Platform, BIS-R Project Performance TestsTurkcell Customer Platform, UCCS Project Performance Team LeaderTurkcell VAS Platform, SDPA Project Performance Team LeaderCustomer Channels Bulk Sms Platform – Design, Development and MigrationTuTema(Turkcell Unified Terminal Management Application) Design, Development and MigrationTurkcell Customer Database – UDB(Unique Database) Design, Development and MigrationÇalıntı Cihaz – SHF(Stolen Handset finder) Design and DevelopmentTurkcell Subscription Operations (ABI – Abonelik İşlemleri) Design, Development and MigrationCustomer Channels Oracle 8i and 9i Migration ProjectsCustomer Channels Oracle High Availability Features RMAN(Recovery Manager)-Legato Entegration and Data Guard Migration Projects
INTERESTS AND ACTIVITIES
Any kind of software development technology,Oracle Application Express,Rock music and playing guitar,Playing and watching basketball,Swimming and scuba diving,My DVD collection
And here are my connection information if you want to get in touch.
Şimdide Başarılı Veritabanı İpuçlarına bir bakalım..
İster iş zekâsı veya bir veri ambarı projesi, ister müşteri ilişkileri veya bir kaynak yönetimi projesi olsun, konunun ana fikri bence veridir. Hazırlanan uygulamalar verinin manalandırılması için gerekeni yapmak için birer araçtır.
Veriler ise veritabanında yaşar, dolayısı ile başarılı bir veritabanı uygulaması hayata geçirmek için çalıştığınız veritabanının mimarisini ve özelliklerini doğru anlamak önemlidir.
Günümüz veritabanları lisansları içinde birçok hazır paket ile birlikte geliyorlar, müşterilerinizin isteklerini ve ihtiyaçlarını rekabete karşı hızla gerçekleştirmek için parasını ödediğiniz bu seçeneklerin neler olduğunun farkında olmak ve bu özellikleri kullanmak size önemli rekabet avantajı sağlar.
Yukarıdaki tespitlerimden yola çıkarak çalıştığınız veritabanına ve o veritabanının SQL diline hâkim olmanın önemine dört konu başlığı altında değinmek istiyorum:
1. Piyasadaki veritabanlarının sadece fiyatlandırmalarında değil, temel özelliklerinde bile ciddi farklılıklar gösterebileceğinin farkında olmanız gerekir.
Bu nedenle başarılı bir “veritabanı uygulaması”, veritabanı bağımsız araçlar ve yaklaşımlar ile bence gerçeklenemez. Veritabanı bağımsız uygulama geliştirme yaklaşımı, uygulamayı geliştiren şirketlerin daha fazla satış yapma potansiyeli olmasını desteklerken, müşterilerinin ciddi lisans maliyetleri ile sahip oldukları veritabanı kabiliyetleri ile ilgilenmez.
2. Verilerinizi işlemek için veritabanının ana dili olan SQL dilini anlamak ve verimli kullanmak gerekir. Dolayısı ile öncelikle SQL dilinin okullarda öğretildiği gibi sadece SELECT, UPDATE, DELETE ve INSERT cümlelerinden ibaret olmadığının farkında olmalısınız.
Bu farkındalık için bir süre okuma, araştırma ve geliştirme yapmanız gerekecek, bağlantısını verdiğim bu Türkçe video eğitim sizin Oracle SQL dili kabiliyetlerini anlamanız için iyi bir başlangıç olacak (teknik kısımların başlaması için 6,5 dakika kadar sabretmelisiniz ).
http://vimeo.com/2444390
3. Uygulamalarınızı tasarlarken ve gerçeklerken, veriyi işleyen kısımların satır-satır çalışmak yerine kümeler üzerinden çalışmasını sağlamalısınız. Tek bir SQL cümlesinin küme mantığı ile yapabileceği bir işi, hiç bir üst katman aracında daha verimli gerçekleyemezsiniz.
-- PL/SQL imleç: satır-satır işleme örneği
begin
for x in (select * from t1)
loop
insert into t2 (c1,...) values (x.c1,...);
end loop;
end;
-- SQL: küme işlemi örneği
insert into t2 ( c1, ... )
select c1, ....
from t1
where ....;
4. Uygulamalarınızı geliştirirken sorunlar yaşadığınızda veya sorularınız olduğunda kime güvenmelisiniz? Günümüzde Google üzerinden aratma yaparak bulamayacağımız cevap yok diyebiliriz, ama dönen bilgiler çok okunur olsalar da cidden güvenilir içeriğe sahipler denebilir mi?
Bu noktada sayılarla desteklenmiş olsa bile, hiç bir “uzman”ın size önerisini hemen satın almamanızı öneririm. Canlı ortamı temsil edecek nitelikteki kendi deneme ortamınızda(işletim sistemi sürümü, Oracle veritabanı sürümü, parametreleriniz, tablo ve dizin seçimleriniz, veri dağılımınız vs. size özeldir) önerilenleri mutlaka önce denemeli ve sonuçlarını çözümlemelisiniz.
Bu yazıda özetlemeye çalıştığım duruşum çevrenizdeki birçok kişi J2EE, SOA vs. gibi yeni teknolojileri karizmatik esas amaçlarmış gibi pozisyonlarken size eski hatta garip gelmiş olabilir, dolayısı ile tartışma potansiyeli yüksek olduğunu düşündüğüm bu yazımı sonlandırmadan önce siz okuyucuların değerli yorum ve tecrübelerini merakla beklediğimi belirtmek istiyorum.
Not: Aman SQL diline balık çizdirecek kadar kendinizi kaptırmayın, bu kadarı da cidden fazla
SQL> set pagesize 0
SQL> set linesize 3000
SQL> select y "&_DATE" from dual model return updated rows
2 dimension by (999 x) measures (lpad('x',200) y, 0 z)
3 rules iterate (80)
4 (
5 y[for x from -10 to 10 increment 1] order by x=y[cv(x)]
6 ||case when iteration_number<2 then 'X' when iteration_number<12 then
7 case when abs(cv(x))between 10-iteration_number and 11-iteration_numb
er then 'X' else ' ' end
8 when -.1+sqrt(power(iteration_number/3-14,2)+power(cv(x),2)) between 8.
5 and 10 then 'X'
9 when iteration_number=55 and cv(x)=-3 then 'O'
10 when iteration_number between 35 and 40 and cv(x)=3 then '/'
11 else ' '
12 end
13 )
14 order by x;
old 1: select y "&_DATE" from dual model return updated rows
new 1: select y "03/09/2009" from dual model return updated rows
XX XXXXXXXXX
XXX XXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXX XXXXXXXXX XXXXXXXXX
XX XX XXXXXXX XXXXXXX
XX XX XXXXXX XXXXXX
XX XX XXXXXX XXXXXX
XX XX XXXXX XXXXX
XX XX XXXX O XXXX
XX XX XXXX XXXX
XX XX XXXXX XXXXX
XX XXXXXXX XXXXX
XX XX XXXXX XXXXX
XX XX XXXX XXXX
XX XX XXXX ////// XXXX
XX XX XXXXX XXXXX
XX XX XXXXXX XXXXXX
XX XX XXXXXX XXXXXX
XX XX XXXXXXX XXXXXXX
XXXX XXXXXXXXX XXXXXXXXX
XXX XXXXXXXXXXXXXXXXXXXXXXXXXXX
XX XXXXXXXXX
21 rows selected.
SQL>
Kullanılan Kaynaklar
Good SQL Practices, Stephane Faroult
http://www.roughsea.com/vids/SQL_Best_Practices.html
Expert Oracle Database Architecture: 9i and 10g Programming Techniques and Solutions, Thomas Kyte
http://asktom.oracle.com
The Burden of Proof, Jonathan Lewis
http://www.google.com.tr/url?sa=t&source=web&ct=res&cd=1&url=http%3A%2F%2Fnocoug.org%2Fdownload%2F2003-08%2Fburden_of_proof.ppt&ei=TKifSrr8DIr-mwOenKTqDw&usg=AFQjCNGpiFj1zI49P74qUAFuiQadPq-Q8g&sig2=DXTke412DfL0ySavQl5NBg
Obfuscated SQL contest, Oracle Community – Database Developers Group
http://www.oraclecommunity.net/forum/topic/show?id=1988559%3ATopic%3A3577
http://blog.turkcell.com.tr/2009/09/18/veri-veritabani-basarili-veritabani-uygulamalari-icin-dort-oneri/