joomla templates Data Warehouse Türkiye

Fri09092011

Last update07:32:32 PM GMT

Back Kategoriler İş Zekası Tarihe göre etiket öğelerini görüntüle: veri madenciliği
Tarihe göre etiket öğelerini görüntüle: veri madenciliği
Pazartesi, 11 Nisan 2011 19:43

Veri Madenciliği Gelişim Süreci ve Teknikleri

Veri Madenciliği Nedir

Veri madenciliği en basit şekilde büyük miktarda veri içerisinden gelecekle ilgili tahmin yapmamızı sağlayacak modellerin veya bağlantıların oluşturulmasıdır.

Bu bağlantılar oluştuktan sonra aradığımız veriler mevcutsa bu verilerden çıkarabileceğimiz sonuçları anlamak için kullanırız.Örneğin ;

Riski az olan tüm kredi kartı başvurularını bul(sınıflandırma)

Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul(demetleme)

DVD birlikte sıkça satın alınan ürünü bul (ilişkilendirme kuralları)

Belli bir ürünü alan insanların ortak özellikleri nelerdir ?

Müşterinin bundan sonra isteyeceği ürünler neler olabilir ?

Hangi müşterilermiz sadık hangisi hangi durumlarda uçup gidiyor ?

..vb bir çok sonuç odaklı sorularımıza cevap bulabiliriz

Ham veriden  bu bilgilere ulaşmanın bir çok yolu var.Gerekli olan bilgiye ulaşmada ilk önce, uygulama alanımızı doğru belirlememiz gerekiyor.Bu uygulama alanının amacına uygun veri kümesi oluşturmalı ve veriyi ayıklama ve önişlemlerden geçirmeliyiz.Sistemimizde kullanacağımız yapıya göre verilerin dönüşümünü ve azaltılmasını gerçekleştirebiliriz.Veri dönüşümünde gerekli boyutları seçebilir boyutlar arası ilişkileri belirleyebilir veya boyutu azaltabiliriz. Bu aşamadan sonra gerekli olacak olan veri madenciliği tekniklerinden birtanesi seçebiliriz. Şimdi bu teknikleri inceleyelim

1- Classification:

En popüler veri madenciliği görevlerinden biridir.Yeni bir nesnenin niteliklerini inceleme ve bu nesneyi önceden tanımlanmış bir sınıfa atamaktatır.Burada önemli olan bir sınıfın özelliklerinin önceden net bir şekilde belirtilmiş olması gerektiğidir. Bir malın özellikleriyle müşteri özelliklerini eşleştirebiliriz.Böylece bir müşteri için ideal ürün veya bir ürün için ideal müşteri profili çıkarılabilir.

“Genç kadınlar küçük araba satın alır, yaşlı, zengin erkekler büyük, lüks araba satın alır.” Sınıflama tekniğine örnek olarak verebiliriz

2-Clustering

Belli bir grubun kümelenmesi şeklinde  düşünebiliriz.Belli bir yapı içindeki geçen terimlere-datalara-özelliklere..vb göre gruplar oluşur.Bu gruplar da en çok geçen datalardan yararlanılarak bir benzerlik ölçütü geliştirilir ve buna göre demetleme yapılır.Örneğin genç –orta ve yaşlı erkeklerin aldığı kontor  miktarı ayrı ayrı cluster oluşturmaktadır.

Bir cluster algoritması sayısız döngü kullanıp model yakınsayınca durarak modeli oluşturur.Yani oluşan segmentlerin sınırları stabil hale gelir. Mevcut halde bir çok clustering algoritması ve yapısı vardır.Örneğin Hierarchical clustering, Partitional clustering,, Spectral clustering..vb Bunlar kendi içinlerinde k-means,fuzzy-c-means ,QT algoritması..vb algoritmaları kullanır.Bunları ilerleyen günlerde belki açıklayabiliriz ama şuan için böyle çeşitlerinin olduğu bilgisi yeterli olacaktır.

3-Association

Popüler veri madenciliği görevlerinden biridir.Bir nesnenin varlığı ile diğer bir nesnenin varlığı arasında tahmin yürütülerek ilişki kurulur.Örneğin bir markette,çocuk bezi alan birisinin hemen hemen herzaman süt aldığı testpit edildikten sonra  market sahibi çocuk bezi ve süt raflarının arasındaki mesafeyi kısaltabilir.Böylece müşteriye unutulan birşeyin hatırlatılması dolayısıyla kazanç sağlanmış olur.Bunun örneklerini günlük hayatımızda bir hayli görüyoruz.


 

4-Regsession  

Amaç bir ya da daha çok değişkenin başka değişkenler cinsinden tahmin edilmesini olanaklı kılan ilişkiler bulmaktır.Örneğin bilgisayar mühendisi olan 40 yaşını aşmamış evi ve arabası olan yakışıklı erkeklerJ bir regsessiondur.

 

5-Forecasting 

Adından da anlaşılacağı gibi bizlere tahminler sunan veri ambarı tekniğidir.Örneğin 5 sene sonra barajlardaki doluluk oranları ne olacak ? gençler en çok hangi meslekleri seçecek? X şirketinin 2012 kar marjı ne olacak? Bu tip sorulara cevap bulan bir yapıdır.Burada ki en büyük yardımcımız zaman ve datanın geçmiş yıllarda zamanın içindeki dağılımıdır. 

  

Veri Madenciliğinin Gelişim Süreci

Veri madenciliğinin kökeni hiç  şüphesiz ilk sayısal bilgisayar olan ENIAC (Electrical  Numerical  Integrator  And  Calculator)’a kadar dayanmaktadır. 1946 yılında geliştirilen ve bugün kullandığımız kişisel bilgisayarların atası olan ENIAC, ABD’li bilimadamları John Mauchly ve J. Presper Eckert tarafından, II. Dünya Savaşı  sırasında ABD ordusu için geliştirildi. 30 tonluk ağırlığıyla 170 m2lik bir alanı kaplayan bu “ilk” bilgisayarın 60 sene içerisinde geçirmiş olduğu evrimin nihai boyutlarını şu anda masa üstünüzdeki bilgisayara bakarak anlamanız mümkündür.

Bu evrim tabii ki belli bir süreç ve  şartlar altında gerçekleşti. Donanımsal olarak hazırlanan ilgisayarların, yazılımlar vasıtasıyla hayat bulması ve kullanıcılara ulaştırılması, bilgisayar evrim döngüsünün anahtarıdır. Bilgisayar ve yazılım uzmanlarının geliştirdikleri ürünler, kullanıcıların istekleri doğrultusunda zamanla  şekillenerek bugünkü halini almış durumdadır. Döngü, donanımın geliştirilmesinin ardından yazılımın bu donanıma entegre edilerek kullanıcıya ulaştırılmasıyla başlar. Kullanıcı ihtiyaçları doğrultusunda yazılımda bulunan eksiklikleri belirler. Yazılım uzmanları bu eksiklikleri göz önünde bulundurarak yeni yazılımlar geliştirirler. Bu yazılımların çalışabilmesi için gerekli donanım güncellenmesinin yapılması için donanım uzmanları uyarılır. Güncellenen bilgisayarlar tekrar kullanıcılara ulaştırılır ve döngü bu şekilde devam eder. Dikkat edilirse döngünün anahtar elemanı kullanıcıdır. Kullancıların ihtiyaçları, isteklerini belirler. Dolayısıyla bu istekler mevzu bahis sektörü doğrudan etkiler ve gelişmenin kapıları açılır.

Bilgisayarların efektif kullanımı verilerin depolanması ile başlamaktadır. İlk haliyle karmaşık esaplamaları yapmaya yönelik geliştirlen bilgisayarlar, kullanıcı ihtiyaçları doğrultusunda veri depolama işlemleri için de kullanılmaya başlandı. Bu sayede veri tabanları ortaya çıktı. Veri tabanlarının genişleme trendi içinde olması donanımsal olarak bu verilerin tutulacakları ortamların da genişlemesini gerektirdi. Veri ambarı kavramının ortaya çıkışı bu dönemlere rastlamaktadır. Kaybedilmek istemeyen veriler, bir ambar misali  fiziksel sürücülerde tekrar kullanılmak üzeresaklanmaktaydı. Gittikçe büyüyen veri tabanlarının organizasyonu, düzenlenmesi ve yönetimi de buna paralel olarak güç bir hal almaya başladı. Bu safhada veri modelleme kavramı ortaya çıktı.

İlk olarak basit veri modelleri olan Hiyerarşik ve  Şebeke veri modelleri geliştirildi. Hiyerarşik veri modelleri, ağaç yapısına sahip, temelinde bir kök olan ve bu kök vasıtasıyla üstünde her daim bir, altında ise n sayıda düğüm bulunan veri modelleriydi.  Şebeke veri modelleri ise kayıt tipi ve bağlantıların olduğu, kayıt tiplerinin varlık, bağlantılarınsa ilişki tiplerini belirlediği bir veri modeliydi.  Şebeke veri modelinde herhangi bir eleman bir diğeri ile ilişki içerisine girebiliyordu. Ancak çoklu ilişki kurmak söz konusu değildi. Hiyerarşik veri modellerinde ise bu daha da kısıtlıydı. Dolayısıyla kullanıcıların ihtiyaçlarını tam olarak karşılayamadılar. Bu ihtiyaçlar doğrultusunda Geliştirilmiş Veri Modelleri geliştirildi. Bunlar Varlık – İlişki, İlişkisel ve Nesne – Yönelimli veri modelleri olarak bilinmektedirler. Günümüzde en sık kullanılanı İlişkisel veri modelidir. Nesne – Yönelimli veri modelleri ise hala gelişim süreci içerisindedir.

İhtiyaçlar doğrultusunda şekillenen veri tabanları ve veri modelleme çeşitleri  hızla yaygınlaşırken, donanımlar da bu sürece ayak uydurdular. Günümüzde milyarlarca bit veriyi ufacık belleklerde tutmak mümkün hale gelmiştir.  İhtiyaçlar her ne kadar teknolojiyi ciddi anlamda  şekillendirse de yanında sorunları daim olarak getirmektedir. Verileri saklanması, düzenlenmesi, organize edilmesi her ne kadar bir sorun gibi görünmese de bu kadar çok veri ile istenilen sonuca ulaşmak başlı başına bir sorun halini almıştır.

Veri madenciliği, kavramsal olarak 1960lı  yıllarda, bilgisayaların veri analiz problemlerini çözmek için kullanılmaya başlamasıyla ortaya çıktı. O dönemlerde, bilgisayar yardımıyla, yeterince uzun bir tarama yapıldığında, istenilen verilere ulaşmanın mümkün olacağı gerçeği kabullenildi. Bu işleme veri madenciliği yerine önceleri veri taraması (data dredging), veri yakalanması (data fishing) gibi isimler verildi

1990lı  yıllara gelindiğinde veri madenciliği ismi, bilgisayar mühendisleri tarafından ortaya atıldı. Bu camianın amacı, geleneksel istatistiksel yöntemler yerine, veri analizinin algoritmik bilgisayar modülleri tarafından değerlendirmesini vurgulamaktı. Bu noktadan sonra bilimadamları veri madenciliğine çeşitli yaklaşımlar getirmeye başladılar. Bu yaklaşımların kökeninde istatistik, makine öğrenimi (machine learning), veritabanları, otomasyon, pazarlama, araştırma gibi disiplinler ve kavramlar yatmaktaydı.

İstatistik, süre gelen zaman içerisinde verilerin değerlendirilmesi ve analizleri konusunda hizmet veren bir yöntemler topluluğuydu. Bilgisayarların veri analizi için kullanılmaya başlamasıyla istatistiksel çalışmalar hız kazandı. Hatta bilgisayarın varlığı daha önce yapılması mümkün olmayan istatistiksel araştırmaları mümkün kıldı. 1990lardan sonra istatistik, veri madenciliği ile ortak bir platforma taşındı. Verinin, yığınlar içerisinden çekip çıkarılması ve analizinin yapılarak kullanıma hazırlanması sürecinde veri madenciliği ve istatistik sıkı bir çalışma birlikteliği içine girmiş bulundular.Bunun yanısıra veri madenciliği, veri tabanları ve makine öğrenimi disipliniyle birlikte yol aldı. Günümüzdeki Yapay Zeka çalışmalarının temelini oluşturan makine öğrenimi kavramı, bilgisayarların bazı  işlemlerden çıkarsamalar yaparak yeni işlemler üretmesidir. Önceleri makineler, insan öğrenimine benzer bir yapıda inşa edilmeye çalışıldı.

Ancak 1980lerden sonra bu konuda yaklaşım değişti ve makineler daha spesifik konularda kestirim algoritmaları üretmeye yönelik inşa edildi. Bu durum ister istemez uygulamalı istatistik ile makine öğrenim kavramlarını, veri madenciliği altında bir araya getirdi.

Kaynaklar;

Rud, O.P., Data Mining Cookbook, Wiley Pub., 2001

Smyth, P., Data Mining Data Analysis on a Grand Scale, UC, 2000

Sertacogut.com/blog/wp-content/uploads/2009/03/sertac_ogut_-_veri_madenciligi_kavrami_ve_gelisim_sureci.pdf


Kategori Data warehouse
Salı, 14 Aralık 2010 19:31

Etl Programları

ETL Programı almalı mı, almamalı mı?

Veritabanı seçimi yapılırken, analitik bir değerlendirme yapılmaya çalışılsa da, seçenekler, yöneticilerin başkalarından duyduğu teknolojilerle şekilleniyor. Bu kişisel bilgilerin de birçoğu veritabanları daha tam oturmamışken oluşan önyargılarla şekilleniyor. Sorumluluğu minimuma indirmek için, yapılan işin ne olduğundan çok satış elemanlarının ön plana çıkardığı noktalar göz önünde bulunduruluyor. Aslında bunu başlı başına başka bir yazıda ele almak gerekli. Bu yazıda ETL programı seçimi konusunda sorulması gereken sorulardan bahsedeceğim. Konu zaten sorular olduğu için, yazının sorular üzerinden ilerleyeceğini şimdiden belirtmek isterim.

Kategori Dba

Selamlar...

Rac ile ilgili ne kadar çok şeyden bahsedersek edelim aslında iş dönüp dolaşıp mimariye geliyor. Ve ben de aklıma geldikçe mimari ile ilgili yazılarımı paylaşmayı düşünüyorum. Çünkü işin özü mimaride...

Aslında database ve özellikle Datawarehouse zaten mimari ile güçlenmişlerdir.Zaten bu işin Dünyada onlardan sorulduğu kişi bu şekilde(modelleme üzerine) çalışmalarla ön plana çıkmışlardır.

Onlardan biri olan Dr. Kimball incelemek isterseniz:

http://www.rkimball.com/ tavsiye ederim.

her neyse konumuza dönecek olursak:

 

Kategori Data warehouse

Oracle'ın Yüksek Kullanılabilirliği(High Availability/HA) Çözüm Yığını


 

 

Paylaşılan Depolama Seçenekleri


 

  1. NFS Monte Depolama (Netapp)
  2. SCSI Paylaşılan depolama; OCFS, OFS, Raw Cihazlar ile
  3. Yapı Mimarisi ile Fiber Kanal depolama
Kategori Dba


Veri Ambari

Veri Ambari, veritabani hareketinden çok sorgulama ve analiz için kullanilmak üzere dizayn edilmis iliskisel bir veritabanidir. Genelde

hareket verisinden elde edilmis tarihi bilgiler içerdigi gibi baska kaynaklardan gelen bilgiler de içerebilir. Veritabani hareketlerinden

kaynaklanan is yüküyle analiz yükünü birbirinden ayirir ve bu sayede degisik kaynaklardan toplanan bilgilerin daha kolay bir sekilde

organize edilmesine olanak saglar.

Veri Ambari ile OLTP Sistemler Arasindaki Farklar

Veri Ambari ve OLTP sistemlerin ihtiyaçlari birbirinden çok farklidir.Tipik bir veri ambari ile OLTP sistemler arasindaki bazi farklar sunlardir:

Kategori Data warehouse
Cumartesi, 30 Ekim 2010 09:39

Veri Ambarı ve Veri Madenciliği Nedir?

VERİ AMBARI NEDİR?

Veri ambarının ne olduğu sorusuna yanıt verebilmek için öncelikle bazı kavramlardan bahsetmek gerekmektedir. Ancak kaba bir tanımla, veri ambarı “işletimsel sistemlerin çıktısı olan verilerin yönetildiği bilgi ortamıdır” denilebilir.

Kategori Data warehouse
Cuma, 29 Ekim 2010 23:26

Adım Adım Oracle BI



ORACLE BI ANSWERS

Başlat -> Programlar -> Oracle Buisness Intelligence ->Welcome to Oracle BI EE tıklıyoruz.


Şekil-22

 

Oracle BI Interactive Dashboards linkine tıklıyoruz. Açılan sayfada “Answers” linkine bastığımızda browserda aşağıdaki (Şekil-23) deki ekran kesitini görebiliriz :

Kategori Data warehouse
Cuma, 29 Ekim 2010 22:43

Olap Küpü Nedir

OLAP KÜPÜ NEDİR

İlişkisel veri tabanlarının kullanımı ve sonrasında ortaya çıkan veri ambarlarının büyüklüğü ile beraber, verilere daha hızlı şekilde erişme ve çok boyutlu analiz ihtiyaçları doğmuştur. Çevrimiçi Analitik İşleme (OLAP) veritabanları karar destek sorgularını kolaylaştırır. OLAP, işlemleri işlemek yerine sorgulama ve raporlama için en iyi duruma getirilmiş bir veritabanı teknolojisidir. OLAP'ın kaynak verileri, yaygın olarak veri depolarında depolanan Çevrimiçi İşlem İşleme (OLTP) veritabanlarıdır. OLAP verileri bu geçmiş verilerinden türer ve karmaşık çözümlemelere izin veren yapılar halinde derlenir. OLAP verileri hiyerarşik olarak da düzenlenir ve tablo yerine küplerde depolanır.

Kategori Data warehouse

2000 li yılların başlarını hatırlıyorum. Aslında bu vakitler Türkiye de Veri Ambarı ve Veri Madenciliği çalışmalarının da ilk kez yapılmaya başlandığı vakitlerdi. SAS ve SPSS Türkiye de daha yeni yeni ofis açıyor pazar bulmaya çalışıyorlar, büyük şirketler de veri’leri bir merkezden raporlamanın veriden yeni bilgiler elde etmenin önemini daha yeni iş süreçlerine sokuyorlardı. Uygulama geliştirici olarak IT dünyasına adım atan bizler gibi pek çok arkadaş da MIS bolumleri, Yonetim raporları, Terabayt’lar gibi kelimeleri ilk kez duymaya basliyordu. Şirketlerde önceleri küçümsenen ve raporlama bölümü denen ilk veri ambarı bölümleri kısa bir süre sonra şirketin
omurgası, olmazsa olmazı, stratejisine yön veren projelerin kaynağı haline geleceklerdi.

Kategori Data warehouse