Varyans, Kovaryans ve Standart Sapma Nedir? Örneklerle Açıklama

Bu yazımda istatistiğin temel kavramlarından varyans, kovaryans ve standart sapmadan bahsetmek istiyorum. Formal bir istatistik eğitimine sahip olmayan biri olarak bu kavramları anlamakta zorlanmıştım, şimdi de ne kadar anlıyorum o da ayrı bir konu. Böyle basit kavramlardan bahsetme amacım, benim gibi öğrenme güçlüğü çeken insanların konuyu örneklerle rahatça anlayabilmelerini sağlamak. Mesela bir seri diyeceğiz birazdan, seri denince insanların kafasında bir şey canlanmayabilir, bu yüzden örneklerle anlatmak ve seri kavramının örnekte nereye karşılık geldiğini söylemek eminin daha anlaşılır olacaktır. Ortalama ve dağılma ölçüleri nedir? konusuna hiç girmeyeceğim çünkü bu yazının amacı anlaşılır ve öz olarak varyans, kovaryans ve standart sapmayı açıklamak.

R ile basit bir veri seti yaratalım. Veri setimiz 30 öğrenciye ait matematik ve fizik notları olsun. R’ın gerekli fonksiyonları ile iki adet 30 elemanlı ders notlarını temsil edecek liste oluşturalım. Liste elemanlarının alacağı değerleri matematik için 40-100, fizik için 60-100 arasında sınırlayalım. Rastgelelik değerleri farklı olsun diye seed değerlerini değişik verelim.

set.seed(123) 
matematik = runif(30,40,100) 
set.seed(100) 
fizik = runif(30,60,100)

Listeleri dataframe yapalım.

df = data.frame(matematik,fizik)

Öğrencileri temsilen de 30 kişilik bir liste oluşturalım:

ogrenci= c('Ali','Ayşe','Aylin','Ahmet','Cemal','Muhittin','Beyza','Beril','Mehmet','Şaziye','Mehtap','Satılmış','Recep','Şaban','Melis','Buket','Hacer','Nilay','Burcu','Bahadır','Birol','Uğur','Muharrem','Fuat','Makbule','Gülay','Derya','Yusuf','Timur','Serap')

Öğrenci isimlerini notlarımızdan oluşturduğumuz dataframe (df) satır ismi (row.names) olarak ekleyelim

row.names(df) <- ogrenci

Bakalım veri setimiz ne hale geldi:

View(df)

Şimdi 30 öğrencinin iki ayrı derse ait notlarını kullanarak kavramlarımızı açıklayalım. Öncelikle dataframe kısa özetini alalım:

summary(df)
matematik            fizik
Min. :42.52          Min. :62.26
1st Qu.:60.89        1st Qu.:72.81
Median :75.00        Median :80.39

Mean :74.34          Mean :79.81

3rd Qu.:91.56        3rd Qu.:87.40
Max. :99.66          Max. :95.29

Burada bizi ilgilendiren en temel değer, aritmetik ortalama, Mean, değeridir. Bu değer bildiğimiz gibi bir dersin notlarının toplamının o dersten notu olan öğrenci sayısına (30) bölümüyle elde edilir.

Standart sapma nedir? Verilerin (notların) aritmetik ortalamadan sapmalarının karelerinin aritmetik ortalamasının kare köküdür.
Standart sapmanın formülü :

\sigma =\sqrt { \cfrac { \sum { ({ X }_{ i }-{ \mu }_{ x })\overset { 2 }{ } } }{ n } }

σ : standart sapma

Xi: i inci öğrencinin notu

μ: ilgili dersin aritmetik ortalaması

n: öğrenci sayısı

Standart sapmanın genel ifadesi:

standart \, sapma\, =\sqrt { \cfrac { Notlarin\, \\ \, ortalamadan\, farklarinin\, karelerinin\, toplami }{ Ogrenci\, sayisi } }

İfadeyi örneğimize göre somutlaştıralım:

standart\, sapma\, =\sqrt { \cfrac { ({ Ali-ortalama) }^{ 2 }+{ (Ayse-ortalama) }^{ 2 }+…. }{ Ogrenci\, sayisi\, olan\, 30 } }
{ standart\, sapma }_{ Matematik }\, =\sqrt { \cfrac { ({ 57.25-74.34) }^{ 2 }+{ (87.29-74.34) }^{ 2 }+…. }{ 30 } }

Matematik için standart sapma 17.48,  fizik için 9.08

R ile hemen basitçe hesaplayalım:

> sd(df\$matematik)
[1] 17.48174
> sd(df\$fizik)
[1] 9.087007

Standart sapmada kareyi her bir notun ortalamadan farkını bulduktan sonra farkını almamızın sebebi eksi değerleri düzeltmektir. Aslında notların aritmetik ortalamadan farklarının toplamı sıfırdır. Bunu önlemek için eksi değerleri artı yapacak kare alma işlemi yapılıyor.

Varyans nedir? Varyans, verilerin aritmetik ortalamadan sapmalarının karelerinin toplamıdır. Yani standart sapmanın karekök alınmamış halidir.

{ s }^{ 2 }={ \cfrac { \sum { ({ X }_{ i }-{ \mu }_{ x } )\overset { 2 }{ } } }{ n } }
varyans\, ={ \cfrac { Bir\, ders\, icin\, her\, bir\, ogrenciye\, ait\, notun\, \\ grup\, ortalamasindan\, farklarinin\, karelerinin\, toplami }{ Ogrenci\, sayisi } }

Peki biz niye durduk yerde standart sapma ve varyans gibi değerlerden bahsediyoruz. Ortalamalar bize bir seriyi temsil edebilecek değerlerdir. Yani bu sınıfın Matematik başarısı hakkında bir fikir edinmek istiyorsak ortalamaya bakarız. Örneğimizde 74.34, ha iyiymiş deriz. Peki ortalama tek başına bu sınıfın başarısı hakkında kanaat edinmemizi sağlayabilir mi? Hayır. Şöyle düşünelim aynı sınıftan başka bir şube olsun ve onun da ortalaması aynı olsun ancak bu sınıfın notları 30-40 ve 85-95 arasında olsun ve aralarda hiç not olmasın ancak ortalama 74.34 olsun. Şimdi bu iki sınıfın başarısı aynıdır diyebilir miyiz? Tabi ki hayır. İşte standart sapma ve varyans bu noktada ortalamaya ilave olarak bize sınıf başarısı hakkında kanaat edinmemizi sağlıyor. Bir sınıfta notlar ortalamaya yakın dağılmışken (standart sapma ve varyans düşük), diğer sınıfta ortalamadan çok uzaklara (standart sapma ve varyans büyük) dağılmış.

Kovaryans nedir? Kovaryans iki değişken arasındaki doğrusal ilişkinin değişkenliğini ölçen bir kavramdır. Başka bir tabirle, iki farklı serinin (örneğimizde seri matematik dersine ait 30 adet not ve fizik dersine ait 30 adet nottur, ya da tablo mantığı ile matematik ve fizik sütunlarını birer seri olarak düşünebiliriz) varyansıdır. Yani iki serinin dağılımının benzerliğini analiz ettiğimiz bir ölçüttür.

Kovaryans formülü:

{ \sigma }_{ xy }\quad =\frac { 1 }{ N } { \sum _{ i=1 }^{ N }{ (({ X }_{ i }-{ \mu }_{ x }){ * } } }(Y_{ i }-{ \mu }_{ y })
{ \sigma }_{ mat,fiz }=\frac { 1 }{ 30 } { { (({ mat }_{ Ahmet }-{ ort }_{ mat }){ * } } }(fiz_{ Ahmet }-{ ort }_{ fiz }) +…)

R kodu ile kovaryans hesaplayalım:

> cov(df\$matematik,df\$fizik)
[1] 16.52833

Hoşçakalın…

Yazar Hakkında
Toplam 152 yazı
Erkan ŞİRİN
Erkan ŞİRİN
2014'ten beri hem akademik alanda hem de sektörde pratik anlamda büyük veri ve veri bilimi ile ilgili çalışmalar yürütmektedir. Büyük veri ve veri bilimi ile ilgili birçok kurum ve şirkete danışmanlık ve eğitimler vermekte, projeler icra etmektedir. Çalışma alanları: büyük veri platformlarının kurulum ve yönetimi, büyük veri üzerinde makine öğrenmesi, olağan dışılık ve sahtecilik tespiti, akan veri işleme ve veri hazırlama sürecidir.
Yorumlar (21 yorum)
ibrahim solak
ibrahim solak Cevapla
- 17:03

Muhteşem bir anlatım olmuş, çok teşekkür ederim.

    Erkan ŞİRİN
    Erkan ŞİRİN Cevapla
    - 07:08

    Çok teşekkür ederim.

fatih
fatih Cevapla
- 03:24

Çok güzel anlatmışsınız.

    Erkan ŞİRİN
    Erkan ŞİRİN Cevapla
    - 21:26

    Çok teşekkür ederim.

Ersan
Ersan Cevapla
- 15:51

Elinize sağlık, temiz anlatmışsınız.

Ahmet Sayin
Ahmet Sayin Cevapla
- 09:02

konuyu harika ozetlemissiniz. ingilizce kaynaklarin coguna baktim, bu kadar temiz anlatan yok. elinize emeginize saglik

serdar
serdar Cevapla
- 22:27

güzel anlatım hocam teşekkür ederim.

Sibel
Sibel Cevapla
- 22:44

Somutlaştırma işe yaradı, duygudaşlığınız için de ayrıca çok teşekkürler. Emeklerinize sağlık, sağ olun.

Süleyman
Süleyman Cevapla
- 04:59

Kısa net ve harika teşekkürler

Umut
Umut Cevapla
- 13:16

Emeğinize sağlık

    Erkan ŞİRİN
    Erkan ŞİRİN Cevapla
    - 23:23

    Çok teşekkürler.

Süleyman soygüder
Süleyman soygüder Cevapla
- 17:21

Sözün güzelligi kisaligindadir demiş atalarımız
Tek kelimeyle muhteşem sağol kardeş varol

    Erkan ŞİRİN
    Erkan ŞİRİN Cevapla
    - 22:08

    Rica ederim. Güzel yorumunuz için teşekkürler…

Mehmet
Mehmet Cevapla
- 18:32

Teşekkürler.

X_jay
X_jay Cevapla
- 00:14

Çok ama çok teşekkürler..

    Erkan ŞİRİN
    Erkan ŞİRİN Cevapla
    - 06:11

    Rica ederim. İyi çalışmalar…

oguz
oguz Cevapla
- 16:29

Teşekkürler. Varyans ile ilgili merak ettiklerim var;
Bir çok kaynakta varyans nedir sorusunun cevabı; “Varyans, verilerin aritmetik ortalamadan sapmalarının karelerinin toplamıdır. Yani standart sapmanın karekök alınmamış halidir.” olmuş . Varyans nasıl hesaplanır sorusunun net cevabı budur belki, ancak bu cevap tam olarak varyansı tanımlar mı? Peki neden verilerin aritmetik ortalamadan sapmalarının karesi alınarak hesaplanıyor? Ortalamaya uzak olan verilere daha fazla ağırlık kattığı için mi? Basit olarak varyansın ne olduğunu, standart sapma ile arasındaki farkı anatırsanız çok sevinirim. Sağolun.

    Erkan ŞİRİN
    Erkan ŞİRİN Cevapla
    - 22:49

    Merhaba. Varyans ile standart sapma arasındaki tek fark varyans ortalamadan uzaklıkların karelerinin toplamı standart sapma ise bu toplamın tekrar karekök alınmış hali. Standart sapmanın bir avantajı da sapmaları gözlemlerin ölçeğinde bize söylüyor olması yani elma ise elma cinsinden armut ise armut. Bu sebeple standart sapma değerleri gözlem ölçeği ile karşılaştırılabilir ve daha kolay yorumlanabilir.

rabia
rabia Cevapla
- 16:10

55 kişilik bir sınıfta İstatistik dersinden sınava giren öğrencilerin notlarının ortalaması 72 varyansı 144 olarak bulunmuştur. Alınan notlar normal olarak dağılmaktadır. Bu duruma göre, söz konusu dersten sınava giren bir öğrencinin ;
a-48 ile 81 arasında
b-70 den az
c-70 den çok not alma olasılığını bulunuz

yusuf
yusuf Cevapla
- 15:30

hocam mrb
sd(df\$matematik)
[1] 17.48174
> sd(df\$fizik)
[1] 9.087007
gibi komutlarda $ işaretinden önce gelen (ters / ) işaretini kaldırınca komut doğru çalışıyor. yanlışlık mı yaptınız yoksa bende mi öyle??
örnek sd(df$matematik) bende ki doğru komut bu şekilde. teşekkürler emeğinize sağlık..

    Erkan ŞİRİN
    Erkan ŞİRİN Cevapla
    - 15:46

    Selam bu kaçınma işareti. Eğer doğru çalışıyorsa sıkıntı yok. İşletim sistemi ve sürüm farklılığından kaynaklanabilir.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara