Varyans, Kovaryans ve Standart Sapma Nedir? Örneklerle Açıklama

Erkan ŞİRİN 20 Ağustos 2017 Uygulama, İstatistik, Teori 24 134529 913 kelime - 6 dakika177

Bu yazıya puan ver

(14 votes, average: 4,50 out of 5)

Bu yazımda istatistiğin temel kavramlarından varyans, kovaryans ve standart sapmadan bahsetmek istiyorum. Formal bir istatistik eğitimine sahip olmayan biri olarak bu kavramları anlamakta zorlanmıştım, şimdi de ne kadar anlıyorum o da ayrı bir konu. Böyle basit kavramlardan bahsetme amacım, benim gibi öğrenme güçlüğü çeken insanların konuyu örneklerle rahatça anlayabilmelerini sağlamak. Mesela bir seri diyeceğiz birazdan, seri denince insanların kafasında bir şey canlanmayabilir, bu yüzden örneklerle anlatmak ve seri kavramının örnekte nereye karşılık geldiğini söylemek eminin daha anlaşılır olacaktır. Ortalama ve dağılma ölçüleri nedir? konusuna hiç girmeyeceğim çünkü bu yazının amacı anlaşılır ve öz olarak varyans, kovaryans ve standart sapmayı açıklamak.

R ile basit bir veri seti yaratalım. Veri setimiz 30 öğrenciye ait matematik ve fizik notları olsun. R’ın gerekli fonksiyonları ile iki adet 30 elemanlı ders notlarını temsil edecek liste oluşturalım. Liste elemanlarının alacağı değerleri matematik için 40-100, fizik için 60-100 arasında sınırlayalım. Rastgelelik değerleri farklı olsun diye seed değerlerini değişik verelim.

set.seed(123) 
matematik = runif(30,40,100) 
set.seed(100) 
fizik = runif(30,60,100)

Listeleri dataframe yapalım.

df = data.frame(matematik,fizik)

Öğrencileri temsilen de 30 kişilik bir liste oluşturalım:

ogrenci= c('Ali','Ayşe','Aylin','Ahmet','Cemal','Muhittin','Beyza','Beril','Mehmet','Şaziye','Mehtap','Satılmış','Recep','Şaban','Melis','Buket','Hacer','Nilay','Burcu','Bahadır','Birol','Uğur','Muharrem','Fuat','Makbule','Gülay','Derya','Yusuf','Timur','Serap')

Öğrenci isimlerini notlarımızdan oluşturduğumuz dataframe (df) satır ismi (row.names) olarak ekleyelim

row.names(df) <- ogrenci

Bakalım veri setimiz ne hale geldi:

View(df)

Şimdi 30 öğrencinin iki ayrı derse ait notlarını kullanarak kavramlarımızı açıklayalım. Öncelikle dataframe kısa özetini alalım:

summary(df)
matematik            fizik
Min. :42.52          Min. :62.26
1st Qu.:60.89        1st Qu.:72.81
Median :75.00        Median :80.39

Mean :74.34 Mean :79.81

3rd Qu.:91.56        3rd Qu.:87.40
Max. :99.66          Max. :95.29

Burada bizi ilgilendiren en temel değer, aritmetik ortalama, Mean, değeridir. Bu değer bildiğimiz gibi bir dersin notlarının toplamının o dersten notu olan öğrenci sayısına (30) bölümüyle elde edilir.

Standart sapma nedir? Verilerin (notların) aritmetik ortalamadan sapmalarının karelerinin aritmetik ortalamasının kare köküdür.
Standart sapmanın formülü :

\sigma =\sqrt { \cfrac { \sum { ({ X }_{ i }-{ \mu }_{ x })\overset { 2 }{ } } }{ n } }

σ : standart sapma

X_i: i inci öğrencinin notu

μ: ilgili dersin aritmetik ortalaması

n: öğrenci sayısı

Standart sapmanın genel ifadesi:

standart \, sapma\, =\sqrt { \cfrac { Notlarin\, \\ \, ortalamadan\, farklarinin\, karelerinin\, toplami }{ Ogrenci\, sayisi } }

İfadeyi örneğimize göre somutlaştıralım:

standart\, sapma\, =\sqrt { \cfrac { ({ Ali-ortalama) }^{ 2 }+{ (Ayse-ortalama) }^{ 2 }+…. }{ Ogrenci\, sayisi\, olan\, 30 } }

{ standart\, sapma }_{ Matematik }\, =\sqrt { \cfrac { ({ 57.25-74.34) }^{ 2 }+{ (87.29-74.34) }^{ 2 }+…. }{ 30 } }

Matematik için standart sapma 17.48, fizik için 9.08

R ile hemen basitçe hesaplayalım:

> sd(df\$matematik)
[1] 17.48174
> sd(df\$fizik)
[1] 9.087007

Standart sapmada kareyi her bir notun ortalamadan farkını bulduktan sonra farkını almamızın sebebi eksi değerleri düzeltmektir. Aslında notların aritmetik ortalamadan farklarının toplamı sıfırdır. Bunu önlemek için eksi değerleri artı yapacak kare alma işlemi yapılıyor.

Varyans nedir? Varyans, verilerin aritmetik ortalamadan sapmalarının karelerinin toplamıdır. Yani standart sapmanın karekök alınmamış halidir.

{ s }^{ 2 }={ \cfrac { \sum { ({ X }_{ i }-{ \mu }_{ x } )\overset { 2 }{ } } }{ n } }

varyans\, ={ \cfrac { Bir\, ders\, icin\, her\, bir\, ogrenciye\, ait\, notun\, \\ grup\, ortalamasindan\, farklarinin\, karelerinin\, toplami }{ Ogrenci\, sayisi } }

Peki biz niye durduk yerde standart sapma ve varyans gibi değerlerden bahsediyoruz. Ortalamalar bize bir seriyi temsil edebilecek değerlerdir. Yani bu sınıfın Matematik başarısı hakkında bir fikir edinmek istiyorsak ortalamaya bakarız. Örneğimizde 74.34, ha iyiymiş deriz. Peki ortalama tek başına bu sınıfın başarısı hakkında kanaat edinmemizi sağlayabilir mi? Hayır. Şöyle düşünelim aynı sınıftan başka bir şube olsun ve onun da ortalaması aynı olsun ancak bu sınıfın notları 30-40 ve 85-95 arasında olsun ve aralarda hiç not olmasın ancak ortalama 74.34 olsun. Şimdi bu iki sınıfın başarısı aynıdır diyebilir miyiz? Tabi ki hayır. İşte standart sapma ve varyans bu noktada ortalamaya ilave olarak bize sınıf başarısı hakkında kanaat edinmemizi sağlıyor. Bir sınıfta notlar ortalamaya yakın dağılmışken (standart sapma ve varyans düşük), diğer sınıfta ortalamadan çok uzaklara (standart sapma ve varyans büyük) dağılmış.

Kovaryans nedir? Kovaryans iki değişken arasındaki doğrusal ilişkinin değişkenliğini ölçen bir kavramdır. Başka bir tabirle, iki farklı serinin (örneğimizde seri matematik dersine ait 30 adet not ve fizik dersine ait 30 adet nottur, ya da tablo mantığı ile matematik ve fizik sütunlarını birer seri olarak düşünebiliriz) varyansıdır. Yani iki serinin dağılımının benzerliğini analiz ettiğimiz bir ölçüttür.

Kovaryans formülü:

{ \sigma }_{ xy }\quad =\frac { 1 }{ N } { \sum _{ i=1 }^{ N }{ (({ X }_{ i }-{ \mu }_{ x }){ * } } }(Y_{ i }-{ \mu }_{ y })

{ \sigma }_{ mat,fiz }=\frac { 1 }{ 30 } { { (({ mat }_{ Ahmet }-{ ort }_{ mat }){ * } } }(fiz_{ Ahmet }-{ ort }_{ fiz }) +…)

R kodu ile kovaryans hesaplayalım:

> cov(df\$matematik,df\$fizik)
[1] 16.52833

Hoşçakalın…

kovaryans nedir? kovaryans örnek R ile kovaryans R ile standart sapma R ile varyans standart sapma nedir standart sapma örnek varyans nedir? varyans örnek

Yazar Hakkında

Toplam 179 yazı

Erkan ŞİRİN

10 yılı aşkın süredir yurtiçi ve yurtdışında sektörde büyük veri mühendisliği, platform yönetimi ve makine öğrenmesi ile ilgili çalışmalar yürütmekte ve aynı zamanda birçok kurum ve şirkete danışmanlık ve eğitimler vermektedir. Çalışma alanları: Data ve MLOps platformları, gerçek zamanlı veri işleme, değişen veriyi yakalama (CDC) ve Lakehouse.

Tüm yazılarını gör

Şunlar da ilginizi çekebilir

İlgili içerik

Vagrant Nedir?

İlgili içerik

dbt (DataBuildTool) ile Veri Analitiği Yolculuğunda Yeni Bir Dönem

Önceki yazı

Apache Sqoop Notları (Sqoop Giriş ve Sqoop Import)

Sonraki yazı

Apache Oozie Nedir? Nasıl Kullanılır? Örnek Java Uygulaması Bölüm-1/3

Yorumlar (24 yorum)

ibrahim solak Yanıtla

19 Haziran 2018 - 17:03

Muhteşem bir anlatım olmuş, çok teşekkür ederim.

Erkan ŞİRİN Yanıtla

11 Temmuz 2018 - 07:08

Çok teşekkür ederim.

fatih Yanıtla

14 Temmuz 2018 - 03:24

Çok güzel anlatmışsınız.

Erkan ŞİRİN Yanıtla

17 Temmuz 2018 - 21:26

Çok teşekkür ederim.

Ersan Yanıtla

17 Eylül 2018 - 15:51

Elinize sağlık, temiz anlatmışsınız.

Ahmet Sayin Yanıtla

9 Ekim 2018 - 09:02

konuyu harika ozetlemissiniz. ingilizce kaynaklarin coguna baktim, bu kadar temiz anlatan yok. elinize emeginize saglik

serdar Yanıtla

5 Kasım 2018 - 22:27

güzel anlatım hocam teşekkür ederim.

Sibel Yanıtla

7 Aralık 2018 - 22:44

Somutlaştırma işe yaradı, duygudaşlığınız için de ayrıca çok teşekkürler. Emeklerinize sağlık, sağ olun.

Süleyman Yanıtla

30 Ocak 2019 - 04:59

Kısa net ve harika teşekkürler

Umut Yanıtla

28 Mart 2019 - 13:16

Emeğinize sağlık

Erkan ŞİRİN Yanıtla

2 Nisan 2019 - 23:23

Çok teşekkürler.

Süleyman soygüder Yanıtla

12 Nisan 2019 - 17:21

Sözün güzelligi kisaligindadir demiş atalarımız
Tek kelimeyle muhteşem sağol kardeş varol

Erkan ŞİRİN Yanıtla

14 Nisan 2019 - 22:08

Rica ederim. Güzel yorumunuz için teşekkürler…

Mehmet Yanıtla

26 Mayıs 2019 - 18:32

Teşekkürler.

X_jay Yanıtla

7 Eylül 2019 - 00:14

Çok ama çok teşekkürler..

Erkan ŞİRİN Yanıtla

7 Eylül 2019 - 06:11

Rica ederim. İyi çalışmalar…

oguz Yanıtla

4 Nisan 2020 - 16:29

Teşekkürler. Varyans ile ilgili merak ettiklerim var;
Bir çok kaynakta varyans nedir sorusunun cevabı; “Varyans, verilerin aritmetik ortalamadan sapmalarının karelerinin toplamıdır. Yani standart sapmanın karekök alınmamış halidir.” olmuş . Varyans nasıl hesaplanır sorusunun net cevabı budur belki, ancak bu cevap tam olarak varyansı tanımlar mı? Peki neden verilerin aritmetik ortalamadan sapmalarının karesi alınarak hesaplanıyor? Ortalamaya uzak olan verilere daha fazla ağırlık kattığı için mi? Basit olarak varyansın ne olduğunu, standart sapma ile arasındaki farkı anatırsanız çok sevinirim. Sağolun.

Erkan ŞİRİN Yanıtla

6 Nisan 2020 - 22:49

Merhaba. Varyans ile standart sapma arasındaki tek fark varyans ortalamadan uzaklıkların karelerinin toplamı standart sapma ise bu toplamın tekrar karekök alınmış hali. Standart sapmanın bir avantajı da sapmaları gözlemlerin ölçeğinde bize söylüyor olması yani elma ise elma cinsinden armut ise armut. Bu sebeple standart sapma değerleri gözlem ölçeği ile karşılaştırılabilir ve daha kolay yorumlanabilir.

rabia Yanıtla

1 Haziran 2020 - 16:10

55 kişilik bir sınıfta İstatistik dersinden sınava giren öğrencilerin notlarının ortalaması 72 varyansı 144 olarak bulunmuştur. Alınan notlar normal olarak dağılmaktadır. Bu duruma göre, söz konusu dersten sınava giren bir öğrencinin ;
a-48 ile 81 arasında
b-70 den az
c-70 den çok not alma olasılığını bulunuz

yusuf Yanıtla

31 Mayıs 2021 - 15:30

hocam mrb
sd(df\$matematik)
[1] 17.48174
> sd(df\$fizik)
[1] 9.087007
gibi komutlarda $ işaretinden önce gelen (ters / ) işaretini kaldırınca komut doğru çalışıyor. yanlışlık mı yaptınız yoksa bende mi öyle??
örnek sd(df$matematik) bende ki doğru komut bu şekilde. teşekkürler emeğinize sağlık..

Erkan ŞİRİN Yanıtla

14 Haziran 2021 - 15:46

Selam bu kaçınma işareti. Eğer doğru çalışıyorsa sıkıntı yok. İşletim sistemi ve sürüm farklılığından kaynaklanabilir.

Fatma Demir Yanıtla

3 Mart 2022 - 19:26

Yorum yazmadan geçemeyeceğim çünkü gerçekten çok açık anlatılmış.
Emeğinize sağlık, çok teşekkürler.

Erkan ŞİRİN Yanıtla

3 Mart 2022 - 19:29

Güzel yorumunuz için çok teşekkürler.

Aysel çelik Yanıtla

1 Temmuz 2022 - 20:22

Ağırlık(gr)
200 204 200 202
203 203 200
201 202 199
200 203 199
203 201 198

N=16 = varyans analizini bulup yorumlayınız?

Bu soruya bakabilirmisiniz grafikli bir şekilde anlamadımda

Varyans, Kovaryans ve Standart Sapma Nedir? Örneklerle Açıklama

Related Posts:

Erkan ŞİRİN

Bir yanıt yazın Yanıtı iptal et

Bir Şeyler Ara