Veri Bilimci Kimdir? – Data Scientist Kimdir?

Bilgi teknolojilerinin gelişmesiyle birlikte veri edinme, saklama, iletme ve işleme maliyetleri oldukça düşmüştür. Gün geçtikçe birim depolama maliyetleri düşüyor, ağ cihazlarının veri aktarım kapasiteleri artıyor, bilgisayarların işlem gücü artıyor. Örneğin veri depolama konusunda; disketlerden, CD’lere oradan DVD’ye, 4-5 GB’lik harddisklerden terabaytlık harddisklere uzanan muazzam bir veri depolama yeteneği artışı var. Sadece bir haftalık tatilde bir DVD’ye zor sığacak fotoğraflar çekiyoruz. Kısacası evrendeki dijital veriler üstel katlanarak artıyor.

Araştırmacılar bu artışı iki yılda ikiye katlanma olarak hesaplamışlar. Bu teknolojik gelişmeler beraberinde bazı fırsatları doğururken bazı zorlukları da beraberinde getiriyor. Mesela bu kadar çok veriyi nerede saklayacağız ve ne yapacağız? Verilerin bu kadar bollaşmadığı dönemlerde ilişkisel veri tabanları (RDBMS) veri yönetimi işini görmek için yeterliydi. Ancak verinin bollaşma hızıyla ilişkisel veri tabanı yönetim sistemlerinin performansları aynı ölçüde gelişmedi. İlişkisel veri tabanları hem yazılım hem de üzerinde koştuğu donanımların performansına bağlı olarak performans artışı gösterdi. Vakıa donanım artışı belli bir limite geldi dayandı. ACID teoremine bağlı olan RDBMS dağıtık hesaplama yapamıyor çünkü veri tutarsızlıklarını önlemek ve bütünlüğü sağlamak için veriyi bir noktada değiştiriyor. RDBMS veriye oldukça katı kurallar empoze ederek yüksek yapısallıkta veri sağlıyor. Ancak aşırı yüksek yapısal veri bütünlüğünü korumaya çalışırken bazen verinin işlenmesini güçleştiriyor. Veriyle uğraşırken RDBMS’ten sürekli hatalar alıyorsunuz.

Veri Bilimci (Data Scientist) Kimdir?

Veri bu kadar çoğalınca haliyle veriyle uğraşacak insanlara ihtiyaç oldu. Bu insanlara veri bilimci denmeye başladı. Veri bilimcilerin hakim olması beklenen bazı temel beceriler:

  • Bilgisayar Bilimleri
  • İstatistik
  • Alan Bilgisi
  • Matematik
  • Makine Öğrenmesi (Yapay Zeka)
  • İletişim ve Sunum Becerisi
  • Veri Görselleştirme

Kaynak: Doing Data Science, Oreilly

Bu disiplinlere sahip, veriyle oynayabilen, onu şekillendiren ve ondan değer üretebilen kişilere veri bilimci diyoruz. Veya çok kısa bir tanımlama ile Normalden daha fazla istatistik bilen programcı ile normalden daha programcılık bilen istatistikçi diyebiliriz. Aslında bu tanım kısa olmakla beraber atladığı bazı hususlar var. Bu tanımı şöyle anlamak gerekir. Veri bilimci olmak istiyorsan temelde bu yeteneklere sahip veya ilgili olmalısın. Anca sadece bunlara sahip olmak tek başına yeterli olmayabilir.

  • SQL bilgisi (basit SELECT…WHERE… sorgusundan daha fazlası)
  • İlişkisel veritabanları (MySQL, Postgres vb.)
  • İlişkisel olmayan veri tabanları (MongoDB, Cassandra, HBase vb.)
  • Makine öğrenmesi modelleri (random forests, gradient-boosted trees, neural networks, survival models, Bayesian inference, k-means clustering vb.)
  • Optimizasyon teknikleri (gradient descent, genetic algorithms)
  • Dağıtık hesaplama (Spark, Presto, Hadoop vb.)
  • Bulut servisleri (AWS S3, EC2, Lambda, API Gateway, Redshift)
  • API’lere aşinalık (OAuth, REST)
  • Olasılığa dayalı programlama dilleri (Stan, JAGS)
  • Web programlama dilleri (Python, Node.js, PHP, Ruby, Go)
  • Veri görselleştirme ve uygulama geliştirmek için UX tasarımı
  • Ölçeklenebilir yazılım geliştirme

Kaynak: https://medium.com/@brockferguson/leaving-academia-to-start-a-data-science-company-looking-back-at-our-first-year-33dab049d965

Patil ve Davenport veri bilimciyi 21. yüzyılın en seksi işi olarak tanımlıyor. Bazı bilim insanlarının tahminlerine göre önümüzdeki dönemde bir hayli veri bilimciye ihtiyaç duyulacak ancak bu ihtiyacın karşılanması mümkün olmayacak. Her talep kendi arzını yaratır prensibinden hareketle veri bilimcilerin kıymetli olacağını umabiliriz.

Hayatın her alanında artık akıl almaz derece ayrıntı ve yoğunlukta veri tutuluyor. Bu veriler; gerçek olay, fiil, davranış ve faaliyetler sonucunda oluşan verilerdir. Dolayısıyla okumasını bilene asla yalan söylemezler. Yeterki uygun araç ve teknikleri kullanarak veriyi konuşturalım. Sizin de içinizde veriyle oynarken bir heyecan beliriyorsa ve bilgisayarın başından saatlerce kalkamıyor ve ilk fırsatta tekrar verilerinizle oynamaya devam etmek için can atıyorsanız siz de bir veri canavarı adayısınız.

Yazar Hakkında
Toplam 175 yazı
Erkan ŞİRİN
Erkan ŞİRİN
10 yılı aşkın süredir yurtiçi ve yurtdışında sektörde büyük veri mühendisliği, platform yönetimi ve makine öğrenmesi ile ilgili çalışmalar yürütmekte ve aynı zamanda birçok kurum ve şirkete danışmanlık ve eğitimler vermektedir. Çalışma alanları: Data ve MLOps platformları, gerçek zamanlı veri işleme, değişen veriyi yakalama (CDC) ve Lakehouse.
Yorumlar (Yorum yapılmamış)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara