İşte Veri Önümde, Şimdi Ne Yapacağım?

Heh veriyi okuttuk sonunda. İşte veri, bakıyorum şöyle, veri bu ve önümde. Şimdi ne yapacağım?

 

 

Öncelikle böyle durum ile karşı karşıya kalınması başlı başına bir problemi ifade etmektedir. DS (data science) proje döngüsü altında bir anda önünüze böyle bir veri gelmez. Bu sebeple bu yazı veri bilimi proje döngüsü yazısı bağlamında hazırlanmamıştır. Gelen sorular üzerine hazırlanan bu yazı veriye hızlı gir-çık yapılması ihtiyacı için hazırlanmıştır. Bu bir ödev ya da hızlı bir uygulama denemesi için gerçekleşiyor olabilir.

Veri setini kendi iradenizle belirli bir sistematik ile edindiğinizi ya da bir şekilde direk elde ettiğini düşünelim ve bu duruma göre ilerleyelim. Bu yazının amacı bir veri elimize geldiğinde bu veri ile ilk önce neler yapılabileceğini göstermektir.

 

1. Amaç Ne ?

Öncelikle amacın ne olduğu belirlemeli. Tamam veri elimizde fakat bu veri ile yapmayı planladığımız yada yapılması istenen şey nedir? Bu sorular çok daha önce veri elde edilmeden önce sorulması gereken sorulardı fakat bunu atladığımızı varsaymıştık. Bu durumda amacın ne olduğunun net bir şekilde ortaya konulması gerekmektedir. Amaç ne? sorusunu yanıtlandıktan sonra veri setine olan bakış açımız bir miktar daha düzene girecektir.

 

2. Tidy Data Süreci

Üzerinde çalışılan veri seti bir takım analitik incelemeler yapmak için gerekli olan düzene sahip mi? Tidy Data nedir?  Kısaca değinecek olursak veri setindeki her bir satır bir gözleme, her bir sütun bir değişkene ve gözlemler ile değişkenlerin kesişimleri bir değere karşılık geliyor mu? Eğer böyleyse devam et. Değilse amacına yönelik olarak veri seti bu formata getirilmeli.

 

3. Değişken Türlerinin Belirlenmesi ve Ayarlanması

Tidy yani düzenli bir formatta olan veri setine biraz daha yakınlaşarak veri setini oluşturan değişkenlerin türleri / ölçeklerinin ne olması gerektiğini belirleyip bunu veri setine de bildirmemiz gerekiyor. Değişkenler sürekli mi, kategorik mi, sıralı kategorik mi, tarih değişkeni mi? Bizce bilinen bu değişken türlerinin veri setine set edilmesi ve tanıtılması gerekir.  Bu basamak önemlidir. Örneğin sınıflar arası eşit olmayan sıralı bir değişkene (ordinal değişken. mesela askeri rütbeler) sınıflar arası eşit muamelesi yapıp onları nominal olarak atadığımızda bir hata yapmış olacağız. Örneğin değerleri şehir isimleri gibi karakterlerden oluşan bir değişken R’a tanıtıldığında R bunları “character” türünde tanıyacaktır.  Eğer bu şehir isimleri bizim için bir kategorik değişken ise ve sınıflar arasında fark yoksa yani sınıflar birbirine eşitse bu durumda R’a şehir isimlerinden oluşan bu değişkenin “factor” değişken olarak tanıtılması gerekir. Dolayısıyla veri setinde yer alan değişkenlerin türlerini bilmeli ve bunu veri setine de bildirmeliyiz.

Değişkenler ve istatistiksel ölçek türleri bir başka yazıda detaylı şekilde ele alınacaktır.

 

4. Özet İstatistikler: Veri Setinin Temel Yapısının Gösterilmesi

Burada çok temel olarak değişkenlerin türleri, ortalama mod medyan gibi basit istatistikleri incelenir. Veriye kabaca bir bakmayı ifade eder. Yukarıdaki basamakları kontrol niteliğindedir. Bu basamakta ortalama, mod, medyan, standart sapma ve varyans gibi temel istatistikler incelenerek ön bilgi edinimi sağlanır. Sonraki basamak olan keşifçi veri analizinde gözlenen bu ortalama ve değişim değerlerinin nasıl gerçekleştiği anlaşılmaya çalışılır.

 

5. Keşifçi Veri Analizi:

Artık düzenli, değişkenlerinin türleri belirlenmiş ve aşağı yukarı ne tür bir yapısı olduğu bilinen veri setinin ciğerine inme zamanı. Keşifçi veri analizinde çok değişkenli istatistiksel analizler ve veri görselleştirme yaklaşımları uygulanarak temel istatistikler ve göz ile yakalanamayacak yapıların ortaya çıkarılması amaçlanır.

Bu amaç doğrultusunda veri setindeki değişkenler tek değişkenli, iki değişkenli ve çok değişkenli şekilde incelenir. Tek değişkenli incelemelerde değişkenlerin varyansları, ortalamaları, aykırılıkları ve eksiklikleri ele alınabilir. Burada unutulmaması gereken nokta aykırı gözlem ve eksik gözlem incelemelerinin nihai karara varmadan önce çok değişkenli şekilde incelenmesi gerektiğidir. Tek değişkenli incelemede amaç değişkenlerin yapısının başlı başına kavranmasıdır.

Tek değişkenli incelemeden sonra iki değişkenli analizler yapılır. Burada korelasyon analizi ile değişkenlerin birbirleri ile olan ilişkileri incelenir. Kategorik değişkenler ile sürekli değişkenlerin birbirlerine göre durumları incelenebilir. Yine araştırmacının merakına ve incelmek istediği şeylere göre çalışma şekillenir.

Çok değişkenli istatistiksel analiz kısmında değişkenlerin birlikte sergilediği yapılara odaklanılır. Örneğin gözlemler ya da değişkenler bazında kümeleme analizleri gerçekleştirilebilir. Gözlem bazında yaparsak gözlemleri kümelemiş oluruz, değişkenler bazında yaptığımızda temel bileşen analizi / faktör analizi yapmış oluruz. Bu durumlar üzerinden keşfedilebilecek yapılara göre ileriki basamaklara geçişler üzerinde kararlar verilmiş olacaktır.

Keşifçi veri analizinin en önemli yanlarından birisi veri görselleştirmesidir. Yukarıda ifade edilen tek değişkenli, iki değişkenli ve çok değişkenli analizler için çok büyük destek sağlayan veri görselleştirme yöntemleri mutlaka veri seti üzerinde uygulanmaya çalışılmalıdır. Nicel değerler ile ifade edilen betimlemeler veri boyutu büyüdüğünde anlamlı hale getirilmesi zor bir hal almaktadır. Bu durumda yukarıdaki tüm işlemleri veri görselleştirme desteği ile çok daha etkili ve doğru şekilde gerçekleştirebiliriz.

Veri görselleştirme ile kategorik değişkenler ile sürekli değişkenler arasındaki ilişkileri etkili bir şekilde ortaya koyabileceğimiz gibi histogramlar, olasılık yoğunluk gösterimi, bar grafik gibi grafikleri oluşturabiliriz. Bununla birlikte gerekli olabilececeği durumlarda 3,4 boyut ve daha fazlası veri görselleştirme için kullanılabilir.  Boyut ilk akla gelen anlamı değil gösterim durumu gibi ele alınmaktadır. Örnek bir görsel:

 

 

Birinci boyut: değişkenler

İkinci boyut: değişkenlerin dağılımı(histogram)

Üçüncü boyut: yoğunluklar(histogram üzeri kırmızı çizgiler)

Dördüncü boyut: değişkelerin birbirleri ile ilişkileri, korelasyon değerleri

Beşinci boyut: korelasyonlara ait p-value şiddetlerini ifade eden yıldızlar

Altıncı boyut: scatter plot

 

Yukarıdaki tüm durumları tek bir görsel ile ifade edebilmek veri görselleştirmenin gücünü göstermek için sanırım yeterlidir. Aslında keşifçi veri analizi altında anlattığımız her şeyi veri görselleştirme teknikleri ile gerçekleştirmek tam anlamıyla bir keşifçi veri analizi yapıldığı anlamına gelecektir. Değişimler, korelasyonlar ve veri içerisindeki yapılar çaprazlamalar ile incelenmeden modelleme basamağına geçilmemelidir. Geçildiği taktirde başarısızlık durumu yaratan bir takım sonuçların suçu algoritmalara yüklenebilir 🙂

 

6. Hedeflenen Analiz Türü ya da Uygulamaya Göre Çalışmaya Devam Etme

Artık veri setinin ciğerini biliyoruz. Dedik ya araba alacağız, sadece şöyle bir kaportasına bakıpta mı alırız? Almayız. Dolayısıyla işi veri olan bir veri bilimcinin bu basamakları atlayarak gitmemesi gerekir. Evet bu noktadan sonra ne yapacağız? Bu noktadan sonra oluşacak sonuçlar çok farklılaşabileceği için yeni bir başlık ile devam etmeyeceğiz.

Bu maddeden sonra yapılmak istenen analiz türü ya da kullanılacak algoritmaya göre ilerleme sağlanacaktır.  Bu Veri Bilimcinin tercihlerine göre belirlenecektir. Netice itibari ile önümüze bir veri geldiğinde onunla ilk önce ne yapmamız gerektiğini öğrenmiş olduk.

Bu yazı başlığı için ileride birden fazla örnek uygulama ile keşifçi veri analizi basamakları uygulanmaya çalışılacaktır.

 

 

 

Yazar Hakkında
Toplam 12 yazı
Mustafa Vahit KESKİN
Mustafa Vahit KESKİN
Yorumlar (Yorum yapılmamış)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara