Veri Bilimi Okulu

Varyans, Kovaryans ve Standart Sapma Nedir? Örneklerle Açıklama
Varyans, Kovaryans ve Standart Sapma Nedir? Örneklerle Açıklama
varyans_kovaryans_ve_standart_sapma_kapak_resmi (640x304)

Loading

Bu yazımda istatistiğin temel kavramlarından varyans, kovaryans ve standart sapmadan bahsetmek istiyorum. Formal bir istatistik eğitimine sahip olmayan biri olarak bu kavramları anlamakta zorlanmıştım, şimdi de ne kadar anlıyorum o da ayrı bir konu. Böyle basit kavramlardan bahsetme amacım, benim gibi öğrenme güçlüğü çeken insanların konuyu örneklerle rahatça anlayabilmelerini sağlamak. Mesela bir seri diyeceğiz birazdan, seri denince insanların kafasında bir şey canlanmayabilir, bu yüzden örneklerle anlatmak ve seri kavramının örnekte nereye karşılık geldiğini söylemek eminin daha anlaşılır olacaktır. Ortalama ve dağılma ölçüleri nedir? konusuna hiç girmeyeceğim çünkü bu yazının amacı anlaşılır ve öz olarak varyans, kovaryans ve standart sapmayı açıklamak.

R ile basit bir veri seti yaratalım. Veri setimiz 30 öğrenciye ait matematik ve fizik notları olsun. R’ın gerekli fonksiyonları ile iki adet 30 elemanlı ders notlarını temsil edecek liste oluşturalım. Liste elemanlarının alacağı değerleri matematik için 40-100, fizik için 60-100 arasında sınırlayalım. Rastgelelik değerleri farklı olsun diye seed değerlerini değişik verelim.

set.seed(123) 
matematik = runif(30,40,100) 
set.seed(100) 
fizik = runif(30,60,100)

Listeleri dataframe yapalım.

df = data.frame(matematik,fizik)

Öğrencileri temsilen de 30 kişilik bir liste oluşturalım:

ogrenci= c('Ali','Ayşe','Aylin','Ahmet','Cemal','Muhittin','Beyza','Beril','Mehmet','Şaziye','Mehtap','Satılmış','Recep','Şaban','Melis','Buket','Hacer','Nilay','Burcu','Bahadır','Birol','Uğur','Muharrem','Fuat','Makbule','Gülay','Derya','Yusuf','Timur','Serap')

Öğrenci isimlerini notlarımızdan oluşturduğumuz dataframe (df) satır ismi (row.names) olarak ekleyelim

row.names(df) <- ogrenci

Bakalım veri setimiz ne hale geldi:

View(df)

Şimdi 30 öğrencinin iki ayrı derse ait notlarını kullanarak kavramlarımızı açıklayalım. Öncelikle dataframe kısa özetini alalım:

summary(df)
matematik            fizik
Min. :42.52          Min. :62.26
1st Qu.:60.89        1st Qu.:72.81
Median :75.00        Median :80.39

Mean :74.34          Mean :79.81

3rd Qu.:91.56        3rd Qu.:87.40
Max. :99.66          Max. :95.29

Burada bizi ilgilendiren en temel değer, aritmetik ortalama, Mean, değeridir. Bu değer bildiğimiz gibi bir dersin notlarının toplamının o dersten notu olan öğrenci sayısına (30) bölümüyle elde edilir.

Standart sapma nedir? Verilerin (notların) aritmetik ortalamadan sapmalarının karelerinin aritmetik ortalamasının kare köküdür.
Standart sapmanın formülü :

\sigma =\sqrt { \cfrac { \sum { ({ X }_{ i }-{ \mu }_{ x })\overset { 2 }{ } } }{ n } }

σ : standart sapma

Xi: i inci öğrencinin notu

μ: ilgili dersin aritmetik ortalaması

n: öğrenci sayısı

Standart sapmanın genel ifadesi:

standart \, sapma\, =\sqrt { \cfrac { Notlarin\, \\ \, ortalamadan\, farklarinin\, karelerinin\, toplami }{ Ogrenci\, sayisi } }

İfadeyi örneğimize göre somutlaştıralım:

standart\, sapma\, =\sqrt { \cfrac { ({ Ali-ortalama) }^{ 2 }+{ (Ayse-ortalama) }^{ 2 }+…. }{ Ogrenci\, sayisi\, olan\, 30 } }
{ standart\, sapma }_{ Matematik }\, =\sqrt { \cfrac { ({ 57.25-74.34) }^{ 2 }+{ (87.29-74.34) }^{ 2 }+…. }{ 30 } }

Matematik için standart sapma 17.48,  fizik için 9.08

R ile hemen basitçe hesaplayalım:

> sd(df\$matematik)
[1] 17.48174
> sd(df\$fizik)
[1] 9.087007

Standart sapmada kareyi her bir notun ortalamadan farkını bulduktan sonra farkını almamızın sebebi eksi değerleri düzeltmektir. Aslında notların aritmetik ortalamadan farklarının toplamı sıfırdır. Bunu önlemek için eksi değerleri artı yapacak kare alma işlemi yapılıyor.

Varyans nedir? Varyans, verilerin aritmetik ortalamadan sapmalarının karelerinin toplamıdır. Yani standart sapmanın karekök alınmamış halidir.

{ s }^{ 2 }={ \cfrac { \sum { ({ X }_{ i }-{ \mu }_{ x } )\overset { 2 }{ } } }{ n } }
varyans\, ={ \cfrac { Bir\, ders\, icin\, her\, bir\, ogrenciye\, ait\, notun\, \\ grup\, ortalamasindan\, farklarinin\, karelerinin\, toplami }{ Ogrenci\, sayisi } }

Peki biz niye durduk yerde standart sapma ve varyans gibi değerlerden bahsediyoruz. Ortalamalar bize bir seriyi temsil edebilecek değerlerdir. Yani bu sınıfın Matematik başarısı hakkında bir fikir edinmek istiyorsak ortalamaya bakarız. Örneğimizde 74.34, ha iyiymiş deriz. Peki ortalama tek başına bu sınıfın başarısı hakkında kanaat edinmemizi sağlayabilir mi? Hayır. Şöyle düşünelim aynı sınıftan başka bir şube olsun ve onun da ortalaması aynı olsun ancak bu sınıfın notları 30-40 ve 85-95 arasında olsun ve aralarda hiç not olmasın ancak ortalama 74.34 olsun. Şimdi bu iki sınıfın başarısı aynıdır diyebilir miyiz? Tabi ki hayır. İşte standart sapma ve varyans bu noktada ortalamaya ilave olarak bize sınıf başarısı hakkında kanaat edinmemizi sağlıyor. Bir sınıfta notlar ortalamaya yakın dağılmışken (standart sapma ve varyans düşük), diğer sınıfta ortalamadan çok uzaklara (standart sapma ve varyans büyük) dağılmış.

Kovaryans nedir? Kovaryans iki değişken arasındaki doğrusal ilişkinin değişkenliğini ölçen bir kavramdır. Başka bir tabirle, iki farklı serinin (örneğimizde seri matematik dersine ait 30 adet not ve fizik dersine ait 30 adet nottur, ya da tablo mantığı ile matematik ve fizik sütunlarını birer seri olarak düşünebiliriz) varyansıdır. Yani iki serinin dağılımının benzerliğini analiz ettiğimiz bir ölçüttür.

Kovaryans formülü:

{ \sigma }_{ xy }\quad =\frac { 1 }{ N } { \sum _{ i=1 }^{ N }{ (({ X }_{ i }-{ \mu }_{ x }){ * } } }(Y_{ i }-{ \mu }_{ y })
{ \sigma }_{ mat,fiz }=\frac { 1 }{ 30 } { { (({ mat }_{ Ahmet }-{ ort }_{ mat }){ * } } }(fiz_{ Ahmet }-{ ort }_{ fiz }) +…)

R kodu ile kovaryans hesaplayalım:

> cov(df\$matematik,df\$fizik)
[1] 16.52833

Hoşçakalın…

0

24 Responses

  1. Teşekkürler. Varyans ile ilgili merak ettiklerim var;
    Bir çok kaynakta varyans nedir sorusunun cevabı; “Varyans, verilerin aritmetik ortalamadan sapmalarının karelerinin toplamıdır. Yani standart sapmanın karekök alınmamış halidir.” olmuş . Varyans nasıl hesaplanır sorusunun net cevabı budur belki, ancak bu cevap tam olarak varyansı tanımlar mı? Peki neden verilerin aritmetik ortalamadan sapmalarının karesi alınarak hesaplanıyor? Ortalamaya uzak olan verilere daha fazla ağırlık kattığı için mi? Basit olarak varyansın ne olduğunu, standart sapma ile arasındaki farkı anatırsanız çok sevinirim. Sağolun.

    1. Merhaba. Varyans ile standart sapma arasındaki tek fark varyans ortalamadan uzaklıkların karelerinin toplamı standart sapma ise bu toplamın tekrar karekök alınmış hali. Standart sapmanın bir avantajı da sapmaları gözlemlerin ölçeğinde bize söylüyor olması yani elma ise elma cinsinden armut ise armut. Bu sebeple standart sapma değerleri gözlem ölçeği ile karşılaştırılabilir ve daha kolay yorumlanabilir.

  2. 55 kişilik bir sınıfta İstatistik dersinden sınava giren öğrencilerin notlarının ortalaması 72 varyansı 144 olarak bulunmuştur. Alınan notlar normal olarak dağılmaktadır. Bu duruma göre, söz konusu dersten sınava giren bir öğrencinin ;
    a-48 ile 81 arasında
    b-70 den az
    c-70 den çok not alma olasılığını bulunuz

  3. hocam mrb
    sd(df\$matematik)
    [1] 17.48174
    > sd(df\$fizik)
    [1] 9.087007
    gibi komutlarda $ işaretinden önce gelen (ters / ) işaretini kaldırınca komut doğru çalışıyor. yanlışlık mı yaptınız yoksa bende mi öyle??
    örnek sd(df$matematik) bende ki doğru komut bu şekilde. teşekkürler emeğinize sağlık..

  4. Ağırlık(gr)
    200 204 200 202
    203 203 200
    201 202 199
    200 203 199
    203 201 198

    N=16 = varyans analizini bulup yorumlayınız?

    Bu soruya bakabilirmisiniz grafikli bir şekilde anlamadımda

Bir yanıt yazın

Password Requirements:

  • At least 8 characters
  • At least 1 lowercase letter
  • At least 1 uppercase letter
  • At least 1 numerical number
  • At least 1 special character