Veri Madenciliği(Data Mining) Nedir ve Nerelerde Kullanılır-1
Merhaba Arkadaşlar,
Sitemize Oracle konusunda bilgilerini bizimle paylaşacak çok değerli bir arkadaşımız daha katıldı.Ogan Özdoğan bloğunda paylaştığı yazıları burada yayınlıyor olacağız.Sizde sitenizde,bloğunuzda,grubunuzda..yazılarınızı bizimle paylaşmak isterseniz Bu e-Posta adresi istek dışı postalardan korunmaktadır, görüntülüyebilmek için JavaScript etkinleştirilmelidir adresine mail atmanız yeterli olacaktır.
Ogan’a şimdiden teşekkür ediyoruz.Ve Ogan'ın ilk makalesine göz atalım..
Veri Madenciliği(Data Mining) Nedir ve Nerelerde Kullanılır-1
özetleme, değişikliklerin analizi, sapmaların tespiti gibi belirli sayıda teknik yaklaşımları içerir (William J. Frawley, Gregory Piatetsky – Shapiro, Cristopher J. Matheus). Başka bir deyişle, veri madenciliği, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir.
Temel olarak veri madenciliği, veri setleri arasındaki desenlerin ya da düzenin, verinin analizi ve yazılım tekniklerinin kullanılması ile ilgilidir. Veriler arasındaki ilişkiyi, kuralları ve özellikleri belirlemekten bilgisayar sorumludur. Amaç, daha önceden fark edilmemiş veri desenlerini tespit edebilmektir. Veri madenciliğini istatistiksel bir yöntemler serisi olarak görmek mümkün olabilir. Ancak veri madenciliği, geleneksel istatistikten birkaç yönde farklılık gösterir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ya da görsel sunumlara çevrilebilecek nitel modellerin çıkarılmasıdır. Bu bağlamda, veri madenciliği insan merkezlidir ve bazen insan – bilgisayar arayüzü birleştirilir. Veri madenciliği sahası, istatistik, makine bilgisi, veri tabanları ve yüksek performanslı işlem gibi temelleri de içerir.
Veri madenciliği, günlük yaşamda birçok şekilde kullanılabilmektedir. Bunlardan bazıları aşağıdaki gibi sıralanabilir:
Hastanelere yapılan tedavi taleplerinin bölgelere, zamana ve ihtiyaca göre değerlendirmesi salgın hastalık riskinin ilk aşamada tespiti, kontrolü ve kaynak planlama açısından faydalı olur.
Kaçak enerji kullananların profillerini tespit eden bir model, olası kaçak enerji kullanıcılarını tahmin etmeyi sağlayacak, düşük maliyet ile kaçaklarla etkin mücadele edilmesine olanak tanıyacaktır.
Karayollarının bölgelere ve zamana göre yoğunluklarını öngörme amaçlı bir çalışma doğru zamanda doğru kaynak planlaması ile örneğin kaza oranlarının asgariye indirilmesini sağlayacaktır.
Kamu kurumları destek programlarını uygularken, verilecek desteğin doğru miktarda ve doğru hedefleri olan kuruluşlara verilmesini sağlayacak kurumsal risk skorlaması yapılmasıyla uygulanan programların başarısı artar. Kredileri tahsis ederken ödememe riski olan profillerin tespit edilmiş olması batık kredi miktarlarını azaltır.
1.1. Örnek Uygulamalar
Veri Madenciliğinde kullanılan yaklaşımları aşağıda belirtildiği gibi sıralayabiliriz:
Algoritma: Verideki ilişki ya da örgüleri belirlemekte kullanılan programatik tekniklerdir.
Model: Algoritma tarafından belirlenen ilişkilerin tanımıdır. Bu tanım genelde kurallar kümesi, karar ağacı, denklemler ya da ilişkiler ağı şeklinde ifade edilir.
Vaka: Tekil bir nesneyle ilişkilendirilen özellikler ve ilişkiler koleksiyonudur. Gözlem olarak da adlandırılır. Vaka kümesi, aynı özellikleri paylaşan vakalar grubudur. Bunu bir tablo gibi düşünebilirsiniz, tablonun her satırında bir vaka yer alır. Tek tablo yerine birbiriyle ilişkili iki ayrı tablo kullanılması da sözkonusu olabilir. Bu durumda ana tablodaki her satır için yavru tabloda birden fazla satır bağlantılı olarak eklenebilir. Gözlem kümesi olarak da adlandırılır.
Bağımlı değişken (ya da tahmin edilen özellik): Algoritmanın tahmin etmek ya da gruplamak için model inşa edeceği değişken.
Bağımsız değişken (ya da tahmin eden özellik): Modeli inşa ederken kullanılan ve tarif edici bilgilere sahip olan değişkenlere denir. Bağımsız değişkenlerin içlerindeki çeşitli kombinasyonlar ele alınarak algoritma tarafından gruplamalar ve tahminler oluşturulur.
Kesikli ya da sürekli değişkenler: Kesikli ya da sürekli değerlere sahip olan sayısal kolonlar. Mesela maaşlarla ilgili gerçek değerleri içeren bir kolon süreklidir. Ama maaş aralıkları belirler ve gerçek değerleri bu aralıklara karşılık gelen 0, 1, 2… gibi bir sayı dizisiyle ifade ederseniz, kesikli bir kolon elde etmiş olursunuz. Daha yeni araçlarda, kesikli kolonlar için sayısal değerler yerine tarif edici karakter ifadelerine de izin verilmektedir. Kolon tipinin kesikli ya da sürekli olması, kullanılan veri madenciliği algoritmaları için önemli olabilmektedir.
Bağıntı: “Çocuk bezi alan müşterilerin %30’u bira da satın alır.” Sepet analizinde (basket analysis) müşterilerin beraber satın aldığı malların analizi yapılır. Buradaki amaç mallar arasındaki pozitif veya negatif korelâsyonları bulmaktır.
Korelasyon, olasılık kuramı ve istatistikte iki bağımsız değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir. Genel istatistiksel kullanımda korelasyon, bağımsızlık durumundan ne kadar uzaklaşıldığını gösterir.Korelasyon, olasılık kuramı ve istatistikte iki bağımsız değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir. Genel istatistiksel kullanımda korelasyon, bağımsızlık durumundan ne kadar uzaklaşıldığını gösterir.
Çocuk bezi alan müşterilerin mama da satın alacağını veya bira satın alanların cips de alacağını tahmin edebiliriz ama ancak otomatik bir analiz bütün olasılıkları göz önüne alır ve kolay düşünülemeyecek, örneğin çocuk bezi ve bira arasındaki bağıntıları da bulur.
Sınıflandırma: “Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler büyük, lüks araba satın alır.” Amaç bir malın özellikleri ile müşteri özelliklerini eşlemektir. Böylece bir müşteri için ideal ürün veya bir ürün için ideal müşteri profili çıkarılabilir. Örneğin bir otomobil satıcısı şirket geçmiş müşteri hareketlerinin analizi ile yukarıdaki gibi iki kural bulursa genç kadınların okuduğu bir dergiye reklâm verirken küçük modelinin reklâmını verir.
Regresyon: “Ev sahibi olan, evli, aynı iş yerinde beş yıldan fazladır çalışan, geçmiş kredilerinde geç ödemesi bir ayı geçmemiş bir erkeğin kredi skoru 825’dir.” Başvuru skorlamada (application scoring) bir finans kurumuna kredi için başvuran kişi ile ilgili finansal güvenilirliğini notlayan örneğin 0 ile 1000 arasında bir skor hesaplanır. Bu skor kişinin özellikleri ve geçmiş kredi hareketlerine dayanılarak hesaplanır.
Zaman İçinde Sıralı Örüntüler: “İlk üç taksitinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla kanuni takibe gidiyor.” Davranış skoru (behavioral score), başvuru skorundan farklı olarak kredi almış ve taksitleri ödeyen bir kişinin sonraki taksitlerini ödeme/geciktirme davranışını notlamayı amaçlar.
Benzer Zaman Sıraları: “X şirketinin hisse fiyatları ile Y şirketinin hisse fiyatları benzer hareket ediyor.” Amaç zaman içindeki iki hareket serisi arasında bağıntı kurmaktır. Bunlar örneğin iki malın zaman içindeki satış miktarları olabilir. Örneğin dondurma satışları ile kola satışları arasında pozitif, dondurma satışları ile salep satışları arasında negatif bir bağıntı beklenebilir.
Fark Saptanması: “Normalden farklı davranış gösteren müşterilerim var mı?” Amaç önceki uygulamaların aksine kural bulmak değil, kurala uymayan istisnai hareketleri bulmaktır. Bu da örneğin olası sahtekârlıkların saptanmasını (fraud detection) sağlar. Örneğin Visa kredi kartı için yapılan CRIS sisteminde bir yapay sinir ağı kredi kartı hareketlerini takip ederek müşterinin normal davranışına uymayan hareketler için müşterinin bankası ile temasa geçerek müşteri onayı istenmesini sağlar.
Doküman Madenciliği: “Arşivimde (veya internet üzerinde) bu dokümana benzer hangi dokümanlar var?” Amaç dokümanlar arasında ayrıca elle bir tasnif gerekmeden benzerlik hesaplayabilmektir (text mining). Bu genelde otomatik olarak çıkarılan anahtar sözcüklerin tekrar sayısı sayesinde yapılır.
Madencilik Yapısı(Mining Structure): Microsoft tarafından kullanılan bir tanımdır. Analysis Services’daki bir vaka kümesini temsil eder. Aslında alttaki veri yapısı üzerinde yer alan bir metadata katmanıdır. Verilerin temel özellikleri yanısıra veri madenciliği açısından çeşitli özelliklerini de barındırır. Bu yapı üzerine modeller kurulur.
Madencilik modeli: Belirli bir algoritmanın belirli bir madencilik çatısı üzerine uygulanmış halidir. Aynı çatı üzerine farklı algoritmalar ya da farklı parametrelerle birden fazla model oluşturabilirsiniz.
http://oganozdogan.blogspot.com
Java Nedir ?
Java ismini her yerde duymuşunuzdur.İnternette gezinirken , oyun oynarken , telefonunuzdaki oyunlarda, programlarda .. Java günümüzde 4.5 milyarı aşkın aygıta güç katmaktadır. Bu aygıtları şöyle sıralayabiliriz;
• 800 milyonu aşkın PC
• 2,1 milyardan fazla cep telefonu ve mobil cihaz (kaynak: Ovum)
• 3,5 milyar akıllı kart
• Dekoderler, yazıcılar, Web kameraları, oyunlar, araçlar için yol bilgisayarları, sayısal loto bayileri, tıbbi cihazlar, otopark ödeme noktaları ve diğerleri.
Java Sun Microsystems firması tarafından geliştirilmiş olan üst seviye bir programlama dilidir.Javanın ilk adı OAK ‘tır.OAK 1995 yılında başarısız olunca Sun firması bu programlama dilinin adını Java olarak değiştirdi ve Internet üzerinde popüler bir programlama dili haline getirmeye çalıştı. Java, C++ dili gibi nesne yönelimli bir programlama dilidir ancak bu dile göre çok daha sadeleştirilmiştir. Java , uygulamaların programların farklı işletim sistemleri üzerinde de çalıştırılabilmesi düşüncesi ile geliştirilmiş bir teknolojidir.
Java Sun MicroSystems firması tarafından geliştirilmiş hem programlama dili hem de bir ortam olarak düşünülebilir.Programlama dili olarak nesneye yönelik ( object –oriented), açık kodlu, güvenli ,internet içinde elverişli bir teknolojidir. Ortam olarak da orta katman (Middleware) teknolojiler bulabilirsiniz. Java ile proje tasarımı ve gerçekleştirimi kolay diğer dillere göre daha kolay , daha esnek ve daha hızlı sürede yapılabilir.
Java ile
• Cep telefonları , Smart kartlar için uygulamalar
• Dağınık bileşenler (CORBA )
• Web tabanlı uygulamalar ( Servlet,JSP)
• Grafiksel kullanıcı arayüzü (GUI) uygulamaları ( Applet)
• Veri tabanına erişim uygulamaları Ve daha bir çok alan için uygulama tasarlanması ve geliştirilmesi yapılabilir..
SOA Nedir?
SOA seminerlerime katılanlardan gelen yoğun istek üzerine bu seminerlerde anlatttıklarımı derleyerek bir makale haline getirdim. İşte karşınızda günümüzün popüler mimarisi SOA.
Yazılım mimarilerine güncel ve popüler bir yaklaşım: Herşey bir gün servis olacak!
Cloud Computing Nedir?
Cloud Computing yani Bulut Hesaplama, geleneksel bilgisayar konseptindeki yerel hesaplama yöntemlerini tarihe gömüyor. Cloud computing kısaca, ihtiyaç duyduğunuz verilerin ve hesaplamaların sizin bilgisayarınızda değilde, uzaktaki birçok bilgisayarda tutulması ve hesaplanması mantığına dayanıyor. Hesaplanan veriler sonradan internet üzerinden sizin bilgisayarlarınıza yönlendiriliyorlar. Bu durumda elinizdeki bilgisayarın kapasitesinin ne olduğunun önemi kalmıyor. Ayrıca bu verilere dünyanın herhangi bir yerinden ve herhangi bir donanımla erişim sağlanıyor. Bu da doğal olarak platform bağımsızlık sağlıyor. Yani sizin kullandığınız sistem ister Windows, ister Linux olsun istediğiniz uygulamayı çalıştırabilirsiniz.
Oracle GoldenGate Nedir?
Oracle'ın yeni tendlerinden GoldenGate nedir nasıl kullanılır ne işe yarar? Bunları kısaca şöyle özetleyelim.
Oracle GoldenGate felaket yönetimi çözümü, kritik iş sistemlerinizdeki sürekliliği sağlamanız için gerekli olan ana ve yedek veritabanı mimarisini oluşturmanız için kullanılan bir teknolojidir. GoldenGate çözümü ana veritabanınızdaki işlemleri yakalayıp, yedek veritabanınıza gerçek zamanlı olarak kopyalar ve yükler. Ana veritabanınızda oluşabilecek herhangi bir donanım ya da yazılım arızası durumunda ise yedek veritabanınız otomatik olarak devreye girer ve kurum içerisindeki işleyişin sekteye uğramadan devam etmesini sağlar. Burada arızanın hemen öncesine kadar üretilmiş ve yazılmış bütün veriler yedek veritabanı içerisinde tutulduğu için tutarlı bir şekilde yedekleme yapılmış olur. Ayrıca yedek olarak tutulan bu veritabanını, performans kazanmak için, raporlama gibi işlemlerde de kullanabilirsiniz. Yedekleme TCP/IP protokolü üzerinden yapıldığı için, Internet omurgası üzerinden de çalışabilmektedir.