Merhabalar , sizlere bu yazıda dünyada gitgide kullanımı artmakta ve benimde ilgi alanım olan R programından bahsedeceğim.
R istatiksel hesaplama ve grafikleri için bilgisayar programı olup aynı zamanda programlama dilidir. Programı Yeni Zelanda Auckland Üniversitesinde Ross Ilhaka ve Robert Gentleman tarafından geliştirilmiştir. Şuanda R Development Core Team tarafından geliştirmelere devam edilmektedir.
Nerden indirebilirim?
Programı http://cran.r-project.org/ adresinden kullandığınız işletim sisteminize uygun seçeneğe göre indirebilirsiniz.
Programın özellikleri:
R çok geniş istatistiki ve grafik teknikleri geliştirme ortamıdır. Program açık kaynak kodlu olduğu için , kullanıcıların eklediği özel fonksiyonlar veya çok özel araştırma alanlarına ait paketlerle geliştirilebilir.Programın hangi alanlarda kullanıldığını ve bu başlıkların detaylarını http://cran.r-project.org/web/views/ ‘den inceleyebilirsiniz.
Neden R ?
R en kapsamlı istatiksel analiz paketidir. Standart istatistiksel testler, modellerin hepsini içerir ve analizlerin yanı sıra , verileri yönetmek ve işlemek içi kapsamlı bir dil sağlamışıdır. Yeni teknoloji ve fikirler R ortamından erişim sağlanabilir.(İlerleyen yazılarda daha da detaylarına paylaşacağım)
R istatistikçiler ve araştırmacılar uygulayarak istatistiksel analiz için geliştirilmiş bir programlama dili ve ortamıdır. R şimdi çok üst düzey istatistikçiler dahil olmak üzere 19 geliştiricilerden oluşan bir çekirdek ekip tarafından geliştirilmektedir.
R açık kaynak kodlu olduğu için, kapalı kaynak kodlu yazılım aksine, birçok uluslararası üne sahip istatistikçiler ve bilim adamları tarafından gözden geçirilmiştir.
R açık kaynak kodlu ve ücretsiz bir yazılımdır. R , The R Foundation for Statistical Computing tarafından the GNU General Public License altında lisanslıdır. Hiçbir lisans kısıtlaması yoktur. Hatta uygulama geliştirip lisans koşuları altında satabilirsiniz.
R ekonometri, veri madenciliği, mekansal analiz, ve biyo-bilişim gibi konularda uzmanlaşmış, birçok kaynaktan temin edebileceğiniz 15,000 ‘in üstünde paket vardır.
Hem de 32 ve 64 bit işlemci üzerinde çalışan, GNU / Linux, Macintosh ve Microsoft Windows üzerinde çalışabilir.
R Microsoft Excel, Microsoft Access, Oracle, MySQL ve SQLite, Hadoop, SAS ve SPSS gibi birçok araçlar ile bağlantı kurularak data import- export işlemleri gerçekleştirebilir. Ayrıca PDF, JPG, PNG ve SVG formatlarında ve LATEX ve HTML için tablo ve grafik çıktısı alabilirsiniz.
Her türlü soru için hızlı bir şekilde bir çok kişi tarafından cevap veren aktif kullanıcı grupları vardır. Bir çok gruba ulaşabileceğiniz ve meetuplara katılabileceğiniz faydalı bir link: http://r-users-group.meetup.com/ . Linkedin üzerinden de R ile ilgili bir çok grupbu takip edebilirsiniz.
http://www.linkedin.com/groups?gid=77616
http://www.linkedin.com/groups?gid=4066593
Ayrıca online olarak katılabileceğiniz bir çok eğitim bulabilirsiniz. Aşağıdaki linkler bunlardan sadece bazıları, araştırdığınızda daha fazlasını bulabilirsiniz.
https://www.coursera.org/course/rprog
https://www.datacamp.com/courses/introduction-to-r
Olumsuz birkaç detaydan bahsetcek olursak;
R dili yeni başlayanlar için öğrenilmesi zor bir dildir. Ama istatistiksel dillerin genelinden daha zor değildir.Development yaptığınız arayüz yeteri kadar friendly değildir. Ama R ile ilerlemeye başladığınızda geliştirme yapabileceğiniz daha gelişmiş ortamlarda çalışabilirsiniz. ( Örneğin
https://www.rstudio.com/ ) .
Türkçe dökuman sıkıntısı vardır.
Bir çok R kodu memory yönetimi için çok açık fikirler vermezler. Ve böylelikle R biranda tüm kullanılabilir belleğinizi tüketebilir. Veri madenciliği yaparken bu bir kısıtlama olabilir. Ama 64 bit işletim sistemlerinin 32 bit işletim sistemlerine göre çeşitli çözümleri vardır.
Yaygın olarak kullanılan diğer toollar ile kıyaslayacak olursak,
Aşağıdaki tabloya baktığımızda genel bir fikir edinmemize yardım olacaktır. Ama tabi ki de kullanım amaçlarına göre daha fazla detaylandıralabilinir.
Name | Advantages | Disadvantages | Open source? | Typicalusers |
R | Library support; visualization | Steep learning curve | Yes | Finance; Statistics |
Matlab | Elegant matrix support; visualization | Expensive; incomplete statistics support | No | Engineering |
SciPy/NumPy/Matplotlib | Python (general-purpose programming language) | Immature | Yes | Engineering |
Excel | Easy; visual; flexible | Large datasets | No | Business |
SAS | Large datasets | Expensive; outdated programming language | No | Business; Government |
Stata | Easy statistical analysis | No | Science | |
SPSS | Like Stata but more expensive and worse |
Dünyada 2013 ve 2012 yılları içinde Analytics, Big Data, Data Mining , Data Science software alanında kullanılan araçların kullanılma yüzdeleri ile ilgili yapılmış araştırmanın sonuçlarını görebilirsiniz. (http://www.kdnuggets.com/ tarafından yapılmıştır.)
Coğrafi bölgelere göre araştırmaya katılma yüzdeleri;
US/Canada (33%) |
W. Europe (28%) |
E. Europe (13%) |
Asia (11%) |
Latin America (8.8%) |
Africa/MidEast (4.0%) |
Australia/NZ (2.3%) |
Faydalı bir yazı olmuş, teşekkürler.