Artık Büyük Veri Var, İstatistiğe Gerek Yok (mu?)
Mesele “Big data” değil kardeeeş, bak resimdeki abileri kızdırıyorsun. 🙂
Bu büyük veri denilen şey nedir? Teknik olarak boyutundan dolayı geleneksel yöntemlerle işlenmesi mümkün olmayan verinin işlenme biçiminin fiziki ve yazılımsal anlamda değişmesidir. BU KADAR. Değişen tek şey verinin işlenme biçimidir. Biçimin değişmesinin sebebi de boyutudur. (Çeşitlilik, hız vs. girmiyorum)
Elimizde daha yüksek boyutta verinin olması, çeşitli alan ya da çalışmalara ilişkin var olabilecek tüm veriye sahip olduğumuzu nasıl düşündürüyor? Kaldı ki bu durum doğru dahi olsa istatistik sadece örnek teorisinden mi ibaret? Büyük veri çağındayız, tamam, herhangi bir çalışma herhangi bir konu için tüm veri elinde olabilir. Bu durum için zaten çıkarıma gerek yok. Ama bütün dünyada, bütün bilimsel ve analitik çalışmalarda böyle bir durumun var olacağını düşünecek kadar mı konudan uzaklık var. Büyük veriden önce de herhangi bir araştırma için elde tüm kitleye ait veriler olabiliyordu. O zaman birileri çıkıp “Aa istatistiğe gerek kalmadı bak bu çalışmada tüm veri varmış!” demedi. Çünkü anlamsız bir şey bu.
Büyük veri çağında olduğumuz için ve bir saatte oluşan bilmem kaç xbyte veri olduğu için, bir araştırmacıya yaptığı bir araştırma ile alakalı tüm veriler verilmiyor. Ya da şirketlerin ellerindeki verinin boyutunun artması artık verinin nirvanasına gelindiğini göstermiyor.
Dün 10 TB büyük veriydi; bugün 10 PB, yarın bilmem ne byte büyük olacak. Karar verme, olasılık hesaplama, kıyaslama yapma, test yapma, model kurma ihtiyacı bitmeyecek.
Bir zamanlar veri saklamanın en gelişmiş yolu:
Bill Gates o gün “İşte veriyi artık CD-ROM’da tutuyoruz, istatistiğe ihtiyaç kalmadı.” demiş midir? O gün CD-ROM, bu gün DNA içerisinde veri :
Bu örneği verinin teknik yönüyle alakalı olduğu için verdim. Veriyi saklamak ve işlemek ile bu veriden anlamlı bilgiler çıkarmak, keşifler yapmak, birtakım modeller kurmak ayrı şeylerdir. Büyük veri, veride meydana gelen birtakım değişiklikler ile verinin tutulma ve işlenme biçimini değiştiren teknik bir sistemdir. Gerisi efsanedir. Büyük veri kullanarak yapılan yapay öğrenme modelleri eskiden de yapılabiliyordu. Fark ne? 1. Çalışma ile alakalı veri setini zenginleştirmeye fırsat vermesidir. 2. Daha büyük boyutta verilerle, insanoğlunun el yordamıyla yapamayacağı düzeyde olan işlemlerin hızlı, ölçeklenebilir ve stabil şekilde yapılmasına olanak sağlamasıdır.
Büyük veri, zengin veri ya da hızlı veri olması tahmin yapma ihtiyacını ortadan kaldırmıyor.
Kısacası içerisinde “veri” ve “karar” kelimeleri olan her süreç için istatistik ölümsüzdür ve verinin büyümesi ile bu ihtiyaç ortadan kalmaz. Çünkü istatistik sadece hipotez kurmaz! Veriyi indirger, hazırlar, görselleştirir, değişkenleri ve ilişkilerini tanımlar, anlamlılık testleri yapar, modeller kurar vs. İstatistikler sadece seçim anketlerinde denk geldiği için bu kısımlar atlanabiliyor:)
İstatistik veri biliminin bir parçasıdır. Büyük veri de bir parçasıdır. Matematik de. Programlama da. Bu alanda her alandan her türlü uzmanlığa ihtiyaç vardır. Bu alan hiç kimsenin değil herkesindir, öyle olmalıdır. Bir istatistikçinin mühendisler ne anlar veri analizinden demesinin saçmalığı kadar mühendislerin istatistikçilerin ne işi var veri ile demesi de saçmadır.
Veri bilimi kapsamında yapılan hemen her şey istatistik camiasında zaten yapılıyordu. Son yıllarda farklı disiplinlerin de bu tarafa odaklanması ile verinin anlaşılması, gösterimi, değişkenlerin kavranması, modelleme gibi tamamen istatistikçilerin yoğun olarak uğraştığı başlıklar multidisipliner bir hal almış oldu. Bu alanın istatistikçilerden tüm disiplinlere açılmasının en önemli etkenlerinden ikisi; verinin büyümesi ve ölçeklenebilir analitik yaklaşımlar ihtiyacıdır. R, Python, Apache Spark gibi araçların bu dünyaya girmesiyle istatistikçilerin yetenekleri değişikliğe yeterince ayak uyduramamıştır. En azından bizim ülkemizde öyle gibi gözüküyor. Ama bu araçlar birer araçtır. Veriden faydalı bilgi çıkarımı yıllardır yapılıyordu. Bir yakınım siz lisansta gördünüz mü bunları, bunlar lisansüstü konular dedi. İstatistik bölümlerinin birçoğu lisans eğitiminde regresyon, lojistik regresyon, karar ağaçları gibi konuları görüyor ve bol bol uygulama yapıyor. Hatta veri ile tanışmaları ikinci sınıfta başlıyor. Yani bir lisans eğitimi boyunca bir veri madenciliği eğitimi alıp sonra yüksek lisansta bu veri işlerine başlamıyorlar.
Ama istatistik bölümlerinde programlama-algoritma-açık kaynak konuları çok çok zayıf hatta SQL görmeden mezun olanlar bile var, yazık! SQL bilmiyor ama veri analizi yapıyor? Maalesef…
Durum ortada, kimse hiçbir şey için keskin hatlarla birtakım etiketlemeler yapamaz. Yapmamalı. Amma velakin ki güzel ülkemde bir kütüphane sorumlusu bile bir konferansta çıkıp ülkenin bilimsel ve teknik konuları ile alakalı böyle büyük laflar edebiliyor. Bu konu birkaç defa denk geldiği için yazmak istedim.
İstatistik konusunda bir cahil kesim vardı ülkemizde, hatta bir de bu istatistik yanlış ellerdeydi, şimdi bir de istatistik işini kotaramayanların “Büyük veri var efendim istatistiğe ne gerek var?” saçmalıklarını duymaya başladık. Sanki ne istatistiği biliyor, ne de büyük veriyi! Saçmalık diyorum kusura bakılmasın, alanımı korumak zorundayım. Uzmanlığımla alakalı söylemleri irdelemek zorundayım ve gerekirse karşısında durmak zorundayım. Bir kütüphane çalışanı ya da yöneticisi bir konferansta çıkıp da “Büyük veri çağındayız, istatistiğe gerek kalmadı.” diyebiliyorsa, onu o konferansa konuşmacı olarak çağıranlar da, onu orada dinleyip itiraz etmeyenler de, bunu benim gibi sonradan öğrenip tepki göstermeyenler de bu garip durumun bir parçasıdır.
Neyse alçalalım 🙂
Hem madem büyük veri geldi istatistiğe gerek yok, hem madem biz batıdan gelene tapıyoruz:
Büyük veri büyük veri dediğimiz o işin merkezinde bir yerde duran Spark topluluğunun spark + r (sparkr) ve istatistik konusundaki durumu. Daha fazlası için de çalışıyorlar diye biliyorum. Sonuçta R içerisindeki zilyon tane kütüphanenin bir çoğu istatistiksel analizler, modellemeler vs vs için var.
Sonuç olarak; insanoğlunun olasılık arama ve karar verme süreçleri bitmeyeceğine göre; bilimi bilim yapan ölçme, değerlendirme, kıyas yapma davranışları bitmeyeceğine göre; bir üretim bandından çıkan 1 milyar telefondan kaç tanesinin arızalı olabileceğini hepsini tek tek inceleyerek belirleyemeyeceğimize göre; tıbbi bir çalışmada yeni bulunan bir ilacın etkili olup olmadığını betimsel değerlere bakarak anlayamayacağımıza göre; veri biliminin a’dan z’ye hemen hemen tüm adımlarında istatistiksel yaklaşımlar var olduğuna göre ve İsviçreli bilim adamları da hala istatistik kullandığına göre bu anlamsız konuyu neden konuşuyoruz. 🙂
Not: The Guardian’da sayfa sayfa inip zor bitirdiğim bir makale vardı. Fuat arkadaşımın paylaştığı. Burada da sürekli popülasyon odaklı bir anlatım vardı. Toz bulutundan başlamış anlatmaya. Asıl konu ile alakalı kaynak yok, bilimsel dayanak yok. Çünkü konu saçma 🙂 Bağlamlar tutmuyor. İstatistiği seçim anketlerini genelleme çabasından ibaret zannedenlerden daha fazlası beklenemez zaten. Bu yazı da aslında işin asıl anlamını barındırmıyordu. Fakat yine de silip atmıyor, otorite kaybı olduğu ifade ediliyordu. Ben buna katılıyorum. Çünkü veri artık bu yüzyılın petrolü olması sebebiyle sadece istatistikçilere bırakılamayacak kadar değerli.
İlgili konular bir zümre bir grup bir alanın değil hepimizin. Bu tür kompleksler maalesef bizim gibi ülkelerde var. Paylaş, beraber yap, üret, ortaya koy, sen yüksel, yanındaki yükselsin, ülken yükselsin, insanlık yükselsin!
Değerli katkılarınızı esirgemeyiniz.
Veri bilimi alanına sağlam bir giriş yapmak için Data Scientist Bootcamp eğitimine kayıt olabilirsiniz.
M.Vahit Keskin
Tüm makaleyi özetler nitelikte :
Bir istatistikçinin mühendisler ne anlar veri analizinden demesinin saçmalığı kadar mühendislerin istatistikçilerin ne işi var veri ile demesi de saçmadır.
İlgili konular bir zümre bir grup bir alanın değil hepimizin. Bu tür kompleksler maalesef bizim gibi ülkelerde var. Paylaş, beraber yap, üret, ortaya koy, sen yüksel, yanındaki yükselsin, ülken yükselsin, insanlık yükselsin!
Sorun istatistik ya da onda degil. Buyuk veri ile tutusturulan firtina dinecektir, hakeza dinmektedir. Dikkatli edilirse, 2013-2016 yillari arasinda costurulan hadoop-hbase-spark-hive gibi buyuk veri teknolojileri icin koparilan gercek zamanli analizlerin ne derecek olamayacagi yakin zamanda goruldu. 10 petabyte duzeyinde veri setleri uzerinde nasil gercek zamanli istatistik modelleri calistirilabilir biraz dusunulse keske. Sorun dedigim gibi istatistikte degil, istatistik orada duracak her zaman , analize her zaman ihtiyac olacak. Buyuk veri de duracak, ancak yapilandirilmamis veriler icin duracak, gercek zamanli koparilan firtinanin degil petabyte duzeylerinde, terabyte duzeylerinde bile olamiyacagi goruluyor ve gorulmeye devam edecek. Ha gelir kuantum hesaplama tam olarak, konusmayiz bu konulari. İstatistik, duracak, buyuk veri esit degildir analiz ve analitik yaklasimlar, hata bu kavram karmasi sadece…. Gececek hersey