Anasayfa / Genel bir bakış / Uygulamalı İstatistik – Giriş ve Temel Kavramlar

Uygulamalı İstatistik – Giriş ve Temel Kavramlar

Giriş

Herkese merhaba.

Öncelikle geçmiş bayramınızı kutlarım. Bu bayram benim için rahat bir nefes alma ve sizlerle buluşma heyecanı ile geçti. Babamın vefatından bu yana ara vermem gerektiği eğitimlere yeniden ve hız kesmeden revize ederek devam edeceğim. Bu yazıda sizlere bu eğitimlerin ilki olan Uygulamalı İstatistik eğitiminden ve bu eğitim için bilmeniz gereken temel kavramlardan bahsedeceğim.

Uygulamalı İstatistik Eğitimi

Eğitimlere ara vermeden önce yeni başladığım Veri Bilimi için İstatistik serisinde konuyu temelde ikiye ayırmıştım.

  1. Uygulamalı İstatistik
  2. Çok Değişkenli İstatistik

Bu seri hepsini kapsamaktaydı ancak şuan ki  işimden dolayı vakit darlığından böl, parçala, yut tekniğini kullanarak seriyi ikiye ayırmış bulunmaktayım.

Bu Eğitimde Bizi Neler Bekliyor?

Mühendislik bölümlerinden sadece endüstri mühendisliği bölümünde anlatılan uygulamalı istatistik konularını içermektedir. Bu konular kabaca aşağıda görülmektedir.

  1. Tanımlayıcı İstatistikler
  2. Olasılık ve Olasılık Dağılımları
  3. İstatistiksel Tahmin Teorisi
  4. Basit Doğrusal Regresyon ve Korelasyon Analizi
  5. Parametrik Hipotez Testleri
  6. Parametrik Olmayan Hipotez Testleri

Bu konular ile ilgili bol uygulumalı ve el ile çözüm dolu bir eğitim serisi sizleri beklemekte.

Neden "El ile" ?

El ile çözümler işin tamamen mantığını kavramak için anlatılmaktadır. El ile çözümler yapan bir kişi, bu çözümlerin algoritmalarını aktarmayı da öğrenebilir. İlerleyen zamanlarda devam etmeyi planladığımız KNIME ile İstatistik ve Veri Bilimi için Algoritma eğitim serilerimizde bu el ile çözümleri bilgisayar programları veya programlama dilleri aracılığı ile daha kolay bir şekilde hesaplamayı görebileceğiz.

Eğitim Sonunda Kazancınız ne Olacak?

Eğitim sonunda uygulamalı istatistik konusunda her bilgiye hakim olabileceğinizden emin olarak hazırlanan bu eğitimin temel amacı sizlere basit bir şekilde uygulamalı istatistik yöntemlerini anlatmaktır. Bu eğitim serisini tamamlayan herkes aşağıdaki öğrenme çıktılarını elde edebilirler:

  • Veri bilimininin veri tanıma işleminde kullanılan tanımlayıcı istatistikler konusunda bilgi sahibi olabilecekler,
  • Olasılık hesaplamaları, kesikli olasılık dağılımları ve sürekli olasılık dağılımları hakkında bilgi sahibi olabilecekler,
  • Basit doğrusal regresyon ve korelasyon analizlerini güvenirlik ve geçerlik ile birlikte öğrenebilecekler,
  • İstatistiksel tahmin teorisini, parametrik ve parametrik olmayan hipotez testleri arasındaki farkları ve birbirlerine denk gelen yöntemlerin neler olduklarını bilebilecekler.

Yardımcı Kaynaklar

Bu eğitim serisinde yardımcı kaynaklardan yararlanılıp, sadeleştirilmiş ve pratikleştirilmiş şekilde sizlere hazırlandı. Bu seride yararlandığım kaynaklardaki hocalara, Veri Bilimi Okulu ailesine ve “Eğitimlerini özledik, en kısa zamanda geri dönersin inşallah” diyen herkese teşekkürü borç bilirim.

  • A. Hamdi Kayran & M. Nadir Yücel, Olasılık Teorisi ve Stokastik Süreçler, Papatya Bilim
  • İbrahim Demir, R ile Uygulamalı İstatistik, Papatya Bilim
  • Necati Alp Erilli, İstatistik 1, Seçkin Yayıncılık
  • Necati Alp Erilli, İstatistik 2, Seçkin Yayıncılık
  • Necmi Gürsakal, R ile Betimsel İstatistik, Dora Yayınları
  • Necmi Gürsakal, R ile Çıkarımsal İstatistik, Dora Yayınları
  • Reha Alpar, Uygulamalı İstatistik ve Geçerlik-Güvenirlik, Detay Yayıncılık

Giriş Videosu

Burada VBO YouTube kanalı üzerinden anlatımları gerçekleştirdiğim uygulamalı istatistik eğitimine giriş videosunu izleyebilirsiniz.

Temel Kavramlar

Bu eğitim serisinde aynı dili konuşabilmek için bazı temel kavramlar hakkında bilgi sahibi olmamız gerekmekte. Bu yüzden sizleri bu temel kavramlar ile baş başa bırakıyorum.

Giriş

İstatistik, veriler ile anlaşmamızı sağlayan bir bilimdir. Bu bilimi daha etkin öğrenmek için öğrenmemiz gereken belli başlı kavramlar mevcut. Bu bölümde istatistik bilimi için temel kavramlara değinilecektir.

Görsel incelendiğinde istatistik bilimine ait temel kavramlar istatistik kavramının merkezinden oluşturulduğu görülmektedir. Şimdi bu kavramlara yakından bakalım.

İstatistik

Belirli amaçlar doğrultusunda ve belirlenen plana bağlı kalınarak gözlenen olaylar sonucunda elde edilen verilerin analiz edilmesinde kullanılan ve birçok disiplin veya bilim dalları ile birlikte kullanılan bir bilim dalıdır. İstatistiksel hesaplamalar karar vermeye, tanımaya veya tahmin etmeye katkıda bulunan hesaplamalar olarak bilinmektedir.

İstatistik, kuramsal (matematiksel) istatistik ve uygulamalı istatistik olarak ikiye ayrılmaktadır. Söz konusu seriyi kapsayan uygulamalı istatistik ise betimleyici istatistik ve çıkarımsal istatistik yöntemleridir. Çok değişkenli istatistik yöntemleri bu serinin devamı niteliğinde ele alınacaktır.

Betimsel İstatistik

Betimleyici istatistik, bir veriye dair tanımlamanın bulunduğu yöntemlerin tamamıdır. Burada amaç, veriyi istatistiksel anlamda tanımaktır. Örnek olarak merkezi eğilim ölçüleri, yayılım ölçüleri, olasılık dağılımları, vb. şeklinde örnekler verilebilir.

Çıkarımsal İstatistik

Çıkarımsal istatistik ise araştırılan alana -biz buna evren veya anakitle diyeceğiz- ait bilgilerin örneklenerek istatistiksel kararların elde edilmesini sağlayan işlemlerin tamamına denir. Örnek olarak doğrusal regresyon analizi, tek yönlü varyans analizi, ki kare testleri, vb. verilebilir. İçerisinde hipotez testleri barındırmaktadır. Hipotez, ortaya atılan savdır. Örneğin; “A sınıfında okuyan öğrencilerin boy ortalaması 158 cm’dir.” ifadesi bir hipotezdir ve istatistiksel olarak bu hipotezin doğruluğu çıkarımsal istatistik yöntemleri ile araştırılmaktadır. Burada amaç, evreni en doğru ihtimalle temsil edecek sonuçların üretilmesini sağlamaktır.

Çok Değişkenli İstatistik

Bu yöntemler ise birden fazla değişkende kullanılan istatistiksel yöntemlerdir. Örnek olarak, lojistik regresyon, ayırma analizi, faktör analizi, şeklinde birçok yöntem kullanılmaktadır. Bu yöntemler kuramsal da olabilir uygulamalı da olabilir. Takip edecek seride uygulama olarak kullanılan yöntemler incelenecektir.

Evren

Evren, araştırdığımız alanın tamamına verilen addır. Örneğin Türkiye’deki kullanılan oylar Türkiye’de ve Yurt dışında yaşayan Türk vatandaşlarını ilgilendirdiği için bu topluluk evreni, bu topluluk üzerinde yapılan sayım işlemine ise tam sayım denilmektedir. Evren, amaca göre genişleyip küçülebilir. Örneğin; Türkiye’de Okuyan İstatistik öğrencileri denildiğinde Türkiye’de bulunan üniversitelerin -varsa- bütün istatistik öğrencilerinden bahsederken, A Üniversitesine ait İstatistik Bölümü Öğrencileri denildiğinde A üniversitesinin istatistik bölümünde okuyan öğrencilerden bahsedilmektedir. Evren sayılabilen sonlu ya da sonsuz olabilir.

Parametre

Evren kavramını incelediğimize göre parametre kavramına bakalım. Parametre, evreni tanımlamak için kullanılan bir ölçüttür. Örnek olarak standart sapma evrende Yunan harflerinden biri olan sigma (σ) simgesi ile temsil edilir. Aritmetik ortalama, varyans, oran, ortanca, medyan, vb birçok ölçülerin karşılığında evrende temsil edilen parametreler bulunmaktadır.

Örneklem

Evreni temsil eden alt kümelere örneklem adı verilmektedir. Alt küme olduğu için evrenden daha az sayıda gözlem barındırması beklenir. Örneklemin evreni temsil etmediği durumda analizi yapan kişi yanlı sonuçlara ulaşmaktadır. Görsel 1’de görüldüğü üzere istatistikten örnekleme, örneklemden istatistiğe bir gösterim söz konusu bunun sebebi bir önceki kavramımızda parametereden bahsettim. Parametre, evreni tanımlayan ölçülerdi. Aynı zamanda istatistik de örneklemi tanımlayan ölçülere denmektedir. Burada evrenin standart sapmasını sigma simgesi ile gösterirken örneklemin standart sapma değerini (s) harfi ile göstermekteyiz.

Örneklemlerin kullanım amacı, evreni temsil eden örneklem üzerinde yapılan incelemeler daha kolay ve ekonomiktir. Bu yüzden biz istatistikte evren ile değil, örneklem ile çalışacağız. Veri Bilimi bile yapsak tamsayıma ulaşamadığımız durumlar için hesaplamalarımızın çoğu verinin örneklem olarak varsayıldığındaki hesaplama yöntemlerini kullanılacaktır.

Örnekleme

Örnekleme, evrenden örnek seçmek için kullanılan işlemin adı, örnekleme yöntemleri ise evrenden örnek seçmek için kullanılan yöntemlerin genel adına denir. Örnekleme yöntemleri olasılıklı ve olasılıksız örnekleme olarak ikiye ayrılmaktadır.

Olasılıklı Örnekleme

Olasılıklı örnekleme yöntemlerinde evrendeki tüm bireylerin rastgele ve eşit şansta seçildikleri varsayılır. Bir örneklemin evreni temsil edebilmesi için mutlaka olasılıklı örnekleme yöntemleri kullanılmaılıdır.

Olasılıksız Örnekleme

Olasılıksız örnekleme yöntemlerinde ise evrende seçilen örneklerin eşit şansa sahip olmadan seçilmesidir. Olasılıksız örnekleme yöntemlerinde şanslar eşit olmadığından sonuçlar yanlı olarak çıkar ve yapılan hesaplamalar evrene genellenemez.

Değişken

Değişken dediğimiz kavram değerleri barındıran isimlerden ibarettir. İstatistiksel anlamda değişken ise bağımlı ve bağımsız olmak üzere ikiye ayrılırlar. Ben bu ikisinin tanımını bir arada vermek istiyorum.

Bağımlı ve Bağımsız Değişken

Bağımlı değişken, bağımsız değişken (veya değişkenlerden) etkilenen değişkenlerdir. Bağımsız değişken ise bağımlı değişken (veya değişkenleri) etkileyen değişkenlerdir. Kafanız karışmasın, basit bir örnekle devam edelim.

Bir dairenin fiyatı metre karesine, cephesine, oda sayısına, bina yaşına, vb. bir sürü değişkene bağlıdır. İşte, burada dairenin fiyatı diğer saydığımız bütün değişkenlerden etkilenen yani bağımlı değişken olup metre kare, cephe, oda sayısı, bina yaşı, vb. değişkenler ise daire fiyatını etkileyen bağımsız değişkenlerdir.

Veri

Araştırılan konu için işlenmemiş materyallere veri denir. Hayatta her şey veridir. Biz de çevremizde bu şekilde veriler toplayarak, kendi zihnimizde birtakım analiz yaparak kararlar vermiyor muyuz? Sonucunda nasıl karar verirsek verelim hiçbir veri işlenmeden bizi sonuca ulaştırmaz.

Teknolojinin ilerlemesi ile veri yapılandırılmış, yapılandırılmamış ve yarı yapılandırılmış olarak sınıflandırılmıştır. Her birinden kısaca bahsetmek gerekirse:

  • Yapılandırılmış veriler tablo veya matris formatında işleyebileceğimiz (SQL) verilerdir.
  • Yapılandırılmamış veriler ise metin, ses, video, müzik, fotoğraf, resim gibi elde edilen ve tablo formatında işlenemeyen (NoSQL) verilerdir.
  • Yarı yapılandırılmış veriler ise hem matris formunda tutabildiğimiz hem de bu formda metinlerin, görsellerin de bulunduğu verilerdir. Bu konudaki en çarpıcı örnek müşteri hizmetlerine ait verileri analiz ederken şikayetin ses ya da metinsel olarak tablolara kaydedildiğini ve müşteri bilgilerinin yanında bu verilerinde aynı formda kullanılabildiği düşünülebilir.

Şimdi ise istatistikte kullanılan veri türlerine bir göz atalım.

Kesikli Niceliksel Veri

Kesikli niceliksel veriler matematikte kullanılan tam sayı değerlerine karşılık gelir. Burada istatistiksel olarak bir tanım yaparsak iki değer arasında değer alamayan ve sayılabilen değerlerin ölçüldüğü veri türlerine kesikli niceliksel veri denir. Örneğin incelenen telefon sayısı 5 ile 9 arasında ise incelenen telefon sayıları 5, 6, 7, 8 ve 9 olabilir. Yani 5,1 telefon veya 8,7 telefon incelenmiş olmaz.

Sürekli Niceliksel Veri

Aynı şekilde sürekli niceliksel veriler ise özünde ondalık sayı veri türlerine denmektedir. Burada iki değer arasındaki bütün değerleri alabilen değerlere sürekli niceliksel veri türleri denmektedir. Örneğin bir çiçeğin boyu 3 ile 8 cm uzunluğu arasında olduğu bilinmekte ise bu çiçeğin boyu 3,8 cm olabilir.

Oran Ölçekli Veri

Oran ölçekli verilerde mutlak bir sıfır noktasına sahip olmakla birlikte belirli bir orana tabii hesaplamalar söz konusudur. Örnek olarak A kişisinin belli süre içerisinde 2 adet yemek yapması ile B kişisinin aynı süre içerisinde aynı yemekten 4 adet yemek yapması B kişisinin A kişisinden iki kat yemek yaptığı anlamına gelmektedir.

Aralık Ölçekli Veri

Buna bağlı olarak aralık ölçekli veriler ise mutlak bir sıfır noktasına sahip olmayan veri türleridir. Genellikle sıcaklıklar bu konuda örnek gösterilir ancak farklı bir örnek vermek gerekirse A kişinin IQ değeri yani bilişsel zekası 50 ile B kişisinin bilişsel zekasının 100 olması B kişisinin A kişisinden iki kat zeki olduğu anlamına gelmez. Bu gibi değerlere aralık ölçekli veriler denir.

Sıralı Niteliksel Veri

Sayısal ifadelerin dışında kalan verilere niteliksel veriler denir. Yani bir kişiyi, durumu ya da olayı nitelemesi yeterlidir. Bir kişinin kilolu olması veya olmaması, kan grubunun A, B, AB ve 0 olması gibi veriler niteliksel verilerdir. Buna bağlı olarak sıralı niteliksel veriler ise aralarında sıralı bir şekilde kategorilenen nitel verilere denir. Örnek olarak bir kişinin öğrenim düzeyi, yaş grupları, bir kişinin başarı, çalışma veya ekonomik durumları, sıralı niteliksel verilere örnek verilebilir.

Sırasız Niteliksel Veri

Buna bağlı olarak sırasız niteliksel veriler ise aralarında sırasız bir şekilde kategorilendirilen nitel verilerdir. Cinsiyet, saç rengi, okunan kitap türü, medeni durum gibi aralarında belli bir üstünlük sağlanmayan nitelikler sırasız niteliksel verilerdir.

Özet ve Sonuç

İstatistik, veriler ile konuşma sanatıdır. Ayrıca ekonomik olup evrene ulaşamadığımız durumlarda işimize yarayan bir bilim dalı ve hayatın her yerinde bulunur. Bu yazıda eğitimin içeriğine ve istatistik için bilmemiz gereken kavramlara değindik. Veri ve veri tiplerini, istatistiğin çeşitlerini ve bunları neden ve nerelerde kullanabileceğimizden bahsettik. Bir sonraki yazıda uygulamalarımıza başlıyoruz! Hazır olun!

Hakkında Cemal CİCİ

Endüstri mühendisi ve yiyecek-içecek hizmetleri sektörüne ait dijital dönüşüm araştırmacısı. Rakamlar ile uğraşmayı, kod yazmayı ve bildiklerini paylaşmayı sever. Hayatını idame ettirmek için her ne kadar "lokantacılık" yapsa da bu sektörün trendini yazılım ile çakıştıracak fikirlerin peşinden koşacak gücünün olduğu aşikar!

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Uygulamalı İstatistik – Merkezi Eğilim Ölçüleri

Giriş Herkese merhaba, bir önceki yazıda verileri gruplandırmıştık. Bu yazıda ise sizlere tanımlayıcı istatistiklerde en …

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir