Anasayfa / Temel İstatistik / Varyans, Kovaryans ve Standart Sapma Nedir? Örneklerle Açıklama

Varyans, Kovaryans ve Standart Sapma Nedir? Örneklerle Açıklama

Bu yazımda istatistiğin temel kavramlarından varyans, kovaryans ve standart sapmadan bahsetmek istiyorum. Formal bir istatistik eğitimine sahip olmayan biri olarak bu kavramları anlamakta zorlanmıştım, şimdi de ne kadar anlıyorum o da ayrı bir konu. Böyle basit kavramlardan bahsetme amacım, benim gibi öğrenme güçlüğü çeken insanların konuyu örneklerle rahatça anlayabilmelerini sağlamak. Mesela bir seri diyeceğiz birazdan, seri denince insanların kafasında bir şey canlanmayabilir, bu yüzden örneklerle anlatmak ve seri kavramının örnekte nereye karşılık geldiğini söylemek eminin daha anlaşılır olacaktır. Ortalama ve dağılma ölçüleri nedir? konusuna hiç girmeyeceğim çünkü bu yazının amacı anlaşılır ve öz olarak varyans, kovaryans ve standart sapmayı açıklamak.

R ile basit bir veri seti yaratalım. Veri setimiz 30 öğrenciye ait matematik ve fizik notları olsun. R’ın gerekli fonksiyonları ile iki adet 30 elemanlı ders notlarını temsil edecek liste oluşturalım. Liste elemanlarının alacağı değerleri matematik için 40-100, fizik için 60-100 arasında sınırlayalım. Rastgelelik değerleri farklı olsun diye seed değerlerini değişik verelim.

set.seed(123) 
matematik = runif(30,40,100) 
set.seed(100) 
fizik = runif(30,60,100)

Listeleri dataframe yapalım.

df = data.frame(matematik,fizik)

Öğrencileri temsilen de 30 kişilik bir liste oluşturalım:

ogrenci= c('Ali','Ayşe','Aylin','Ahmet','Cemal','Muhittin','Beyza','Beril','Mehmet','Şaziye','Mehtap','Satılmış','Recep','Şaban','Melis','Buket','Hacer','Nilay','Burcu','Bahadır','Birol','Uğur','Muharrem','Fuat','Makbule','Gülay','Derya','Yusuf','Timur','Serap')

Öğrenci isimlerini notlarımızdan oluşturduğumuz dataframe (df) satır ismi (row.names) olarak ekleyelim

row.names(df) <- ogrenci

Bakalım veri setimiz ne hale geldi:

View(df)

Şimdi 30 öğrencinin iki ayrı derse ait notlarını kullanarak kavramlarımızı açıklayalım. Öncelikle dataframe kısa özetini alalım:

summary(df)
matematik            fizik
Min. :42.52          Min. :62.26
1st Qu.:60.89        1st Qu.:72.81
Median :75.00        Median :80.39

Mean :74.34          Mean :79.81

3rd Qu.:91.56        3rd Qu.:87.40
Max. :99.66          Max. :95.29

Burada bizi ilgilendiren en temel değer, aritmetik ortalama, Mean, değeridir. Bu değer bildiğimiz gibi bir dersin notlarının toplamının o dersten notu olan öğrenci sayısına (30) bölümüyle elde edilir.

Standart sapma nedir? Verilerin (notların) aritmetik ortalamadan sapmalarının karelerinin aritmetik ortalamasının kare köküdür.
Standart sapmanın formülü :

\[
\quicklatex{ size=25}

sigma\quad =\sqrt { \cfrac { \sum { ({ X }_{ i }-{ \mu }_{ x })\overset { 2 }{ } } }{ n } }

\]

σ : standart sapma

Xi: i inci öğrencinin notu

μ: ilgili dersin aritmetik ortalaması

n: öğrenci sayısı

Standart sapmanın genel ifadesi:

\[
\quicklatex{ size=15}

standart\quad sapma\quad =\sqrt { \cfrac { Notlarin\quad  \\ \quad ortalamadan\quad farklarinin\quad karelerinin\quad toplami }{ Ogrenci\quad sayisi } }

\]

İfadeyi örneğimize göre somutlaştıralım:

\[
\quicklatex{ size=25}

standart\quad sapma\quad =\sqrt { \cfrac { ({ Ali-ortalama) }^{ 2 }+{ (Ayse-ortalama) }^{ 2 }+…. }{ Ogrenci\quad sayisi\quad olan\quad 30 } }

\]

\[
\quicklatex{ size=25}

{ standart\quad sapma }_{ Matematik }\quad =\sqrt { \cfrac { ({ 57.25-74.34) }^{ 2 }+{ (87.29-74.34) }^{ 2 }+…. }{ 30 } }

\]

Matematik için standart sapma 17.48,  fizik için 9.08

R ile hemen basitçe hesaplayalım:

> sd(df$matematik)
[1] 17.48174
> sd(df$fizik)
[1] 9.087007

Standart sapmada kareyi her bir notun ortalamadan farkını bulduktan sonra farkını almamızın sebebi eksi değerleri düzeltmektir. Aslında notların aritmetik ortalamadan farklarının toplamı sıfırdır. Bunu önlemek için eksi değerleri artı yapacak kare alma işlemi yapılıyor.

Varyans nedir? Varyans, verilerin aritmetik ortalamadan sapmalarının karelerinin toplamıdır. Yani standart sapmanın karekök alınmamış halidir.

\[
\quicklatex{ size=25}

{ s }^{ 2 }={ \cfrac { \sum { ({ X }_{ i }-{ \mu }_{ x } )\overset { 2 }{ } } }{ n } }

\]

\[
\quicklatex{ size=15}

varyans\quad = \quad{ \cfrac { Bir\quad ders\quad icin\quad her\quad bir\quad ogrenciye\quad ait\quad notun\quad \\ grup\quad ortalamasindan\quad farklarinin\quad karelerinin\quad toplami }{ Ogrenci\quad sayisi } }

\]

Peki biz niye durduk yerde standart sapma ve varyans gibi değerlerden bahsediyoruz. Ortalamalar bize bir seriyi temsil edebilecek değerlerdir. Yani bu sınıfın Matematik başarısı hakkında bir fikir edinmek istiyorsak ortalamaya bakarız. Örneğimizde 74.34, ha iyiymiş deriz. Peki ortalama tek başına bu sınıfın başarısı hakkında kanaat edinmemizi sağlayabilir mi? Şöyle düşünelim aynı sınıftan başka bir şube olsun ve onun da ortalaması aynı olsun ancak bu sınıfın notları 30-40 ve 85-95 arasında olsun ve aralarda hiç not olmasın ancak ortalama 74.34 olsun. Şimdi bu iki sınıfın başarısı aynıdır diyebilir miyiz? Tabi ki hayır. İşte standart sapma ve varyans bu noktada ortalamaya ilave olarak bize sınıf başarısı hakkında kanaat edinmemizi sağlıyor. Bir sınıfta notlar ortalamaya yakın dağılmışken (standart sapma ve varyans düşük), diğer sınıfta ortalamadan çok uzaklara (standart sapma ve varyans büyük) dağılmış.

Kovaryans nedir? Kovaryans iki değişken arasındaki doğrusal ilişkinin değişkenliğini ölçen bir kavramdır. Başka bir tabirle, iki farklı serinin (örneğimizde seri matematik dersine ait 30 adet not ve fizik dersine ait 30 adet nottur, ya da tablo mantığı ile matematik ve fizik sütunlarını birer seri olarak düşünebiliriz) varyansıdır. Yani iki serinin dağılımının benzerliğini analiz ettiğimiz bir ölçüttür.

Kovaryans formülü:

\[
\quicklatex{ size=25}

{ \sigma }_{ xy }\quad =\frac { 1 }{ N } { \sum _{ i=1 }^{ N }{ (({ X }_{ i }-{ \mu }_{ x }){ * } } }(Y_{ i }-{ \mu }_{ y }))

\]

\[
\quicklatex{ size=25}

{ \sigma }_{ mat,fiz }=\frac { 1 }{ 30 } { { (({ mat }_{ Ahmet }-{ ort }_{ mat }){ * } } }(fiz_{ Ahmet }-{ ort }_{ fiz }) +…)

\]

R kodu ile kovaryans hesaplayalım:

> cov(df$matematik,df$fizik)
[1] 16.52833

Hoşçakalın…

Hakkında Erkan ŞİRİN

2014'ten beri hem akademik hem de sektörde pratik anlamda büyük veri ve veri bilimi ile ilgili çalışmalar yürütmektedir. Halihazırda İmpektra Bilişim A.Ş.'de büyük veri yöneticisi olarak çalışmakta olup aynı zamanda Gazi Üniversitesi Yönetim Bilişim Sistemleri doktora öğrencisidir. Büyük veri ve veri bilimi ile ilgili birçok kurum ve şirkete eğitimler vermekte ve projeler icra etmektedir. Çalışma alanları: büyük veri platformlarının kurulum ve yönetimi, büyük veri üzerinde makine öğrenmesi, olağan dışılık tespiti, sahtecilik tespiti, veri hazırlama sürecidir.

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Python Pandas ile Aynı Anda Birden Fazla Excel Dosyasını Okumak

Dosya veri kaynakları arasında csv uzantılı dosyalar kadar excel dosyaları da bulunmaktadır. Pandas kütüphanesi her …

16 yorumlar

  1. Muhteşem bir anlatım olmuş, çok teşekkür ederim.

  2. Çok güzel anlatmışsınız.

  3. Elinize sağlık, temiz anlatmışsınız.

  4. konuyu harika ozetlemissiniz. ingilizce kaynaklarin coguna baktim, bu kadar temiz anlatan yok. elinize emeginize saglik

  5. güzel anlatım hocam teşekkür ederim.

  6. Somutlaştırma işe yaradı, duygudaşlığınız için de ayrıca çok teşekkürler. Emeklerinize sağlık, sağ olun.

  7. Kısa net ve harika teşekkürler

  8. Emeğinize sağlık

  9. Süleyman soygüder

    Sözün güzelligi kisaligindadir demiş atalarımız
    Tek kelimeyle muhteşem sağol kardeş varol

  10. Teşekkürler.

  11. Çok ama çok teşekkürler..

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir