Anasayfa / Genel bir bakış / Veri Bilimi (Datascience) Nedir?

Veri Bilimi (Datascience) Nedir?

Daha büyük veri (big data) nedir ne değildir derken son yıllarda ortalıkta bir veri bilimi, “datascience“, tabiri dolaşmaya başladı. Ülkemiz her ne kadar bu kavramlarla tanışıklığı yeni yeni başlasa da dünya da epey bir yaygınlık kazanmaya başladığını görüyoruz. Aslında bu yaygınlık doğal bir gelişimin sonucu, yani kimse yapmacık yere veri bilimleri ve veri bilimci, “datascientist”, büyük veri, “big data” kavramlarını üretmiyor. Bu kavramlar şöyle bir doğal serüvenin sonunda patlamaya başladı: Bilgi sistemlerinde teknolojik ilerleme tüm hızıyla devam ediyor. Her geçen gün veriyi üretmek daha kolaylaşıyor. Üretilen bu verilerin bir yerden başka yere taşınması konusunda ağ teknolojilerinin veri iletim performansları fiber teknoloji ile birlikte akıl almaz hızlara ulaşmaya başladı. Veriyi saklamak için disk birim alan maliyeti oldukça düşük bir seviyeye inmiş durumda. Ayrıca şunu da belirtmeden geçmek istemem o da veri üreten kaynakların bolluğudur. Bilgi sistemleri gittikçe yaygınlaştı ve insan hayatının girmedik köşesini bırakmadı. Müşteri işlemleri, bankacılık işlemleri, e-ticaret işlemleri, ürün yorumları, RFID verileri, elektronik sağlık kayıtları, sigorta geri ödeme kayıtları, algılayıcılar tarafından üretilen veriler gibi bir çok veri kaynağı bulunmaktadır. Hal böyle olunca dünyada bir veri bolluğu yaşanmaya başlandı. Oh ne güzel Arap! buldun sabunu her yerine sür 🙂

Ancak veri üretme, iletme, işleme ve saklamanın kolaylığı ile beraber başka sorunlar da baş göstermeye başlıyor. Yığınlarla verimiz var. Eee ne olmuş yani? Peki bu kadar çok veriyi ne yapacağız? Sonsuza kadar turşusunu kuracak halimiz yok. Hangisini saklayıp, hangisini ne zaman çöpe atacağız? Ve asıl soru bu işi nasıl yapacağız? İşte bu noktada büyük veri teknolojileriyle birlikte veri bilimleri ve veri bilimci kavramları ortaya çıkmaya başladı. Veri bilimi adından da anlaşılacağı gibi veriyle uğraşan bilim 🙂 Ve bu bilimin odağında da yığınlarla veriden değer üretme, anlam çıkarma bulunuyor.

Çok yakın zamana kadar, büyük veri akımından önce diyelim, veri tabanları konusunda ilişkisel veri tabanı en yaygın veri tabanı olarak hemen hemen bütün ihtiyaçları gideriyordu. Ancak büyük veri akımıyla beraber ilişkisel veri tabanı büyük veri özelliklerine sahip (hacim, hız, çeşitlilik) veriyle başa çıkamaz duruma düştü. Yatay ölçekleme (scale out) kabiliyeti olmayan ilişkisel veri tabanlarının yerine yatay ölçekleme özelliğine sahip NoSQL veri tabanları ve büyük veri teknolojileri yer almaya başladı. Bu teknolojide bir sunucu kümesi (cluster) binlerce düğüme (node) kadar genişleme imkanı sunmaktadır. Neyse ileriki yazılarımda büyük veri teknolojisini daha ayrıntılarıyla ele almaya çalışacağım. Ayrıca SQL ve NoSQL karşılaştırmalarını da başka bir yazıda ele alırım. Büyük veriyle beraber veri madenciliği ve makine öğrenmesi ile ilgili yazılar da yazmayı düşünüyorum.

Hakkında Erkan ŞİRİN

2014'ten beri hem akademik alanda hem de sektörde pratik anlamda büyük veri ve veri bilimi ile ilgili çalışmalar yürütmektedir. Halihazırda İmpektra Bilişim A.Ş.'de büyük veri yöneticisi olarak çalışmakta olup aynı zamanda Gazi Üniversitesi Yönetim Bilişim Sistemleri doktora öğrencisidir. Büyük veri ve veri bilimi ile ilgili birçok kurum ve şirkete eğitimler vermekte ve projeler icra etmektedir. Çalışma alanları: büyük veri platformlarının kurulum ve yönetimi, büyük veri üzerinde makine öğrenmesi, olağan dışılık tespiti, sahtecilik tespiti, veri hazırlama sürecidir.

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Python ile Adres Bulucu

Python ile Adres Bulma Motoru Oluşturma

Merhaba arkadaşlar, bu aralar işimden dolayı Python ile haşır neşir olduğumdan dolayı Python ile yazılarıma …

2 yorumlar

  1. İlk yazı için iyisin

  2. Yazılarının devamını merakla bekliyorum

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir