Merkezi Eğilim Ölçüleri
1.Giriş
Veri üzerinde sadece frekans dağılımlarına ve grafiklere bakılmaz. Veri hakkında genel durumu yansıtacak bir takım ölçülere gereksinim vardır. Öyle ölçüler ki, yalnızca veriler özlü bir biçimde belirtmekle kalmasınlar, yapılacak karşılaştırmalara, genellemelere, yorumlara olanak sağlasınlar. Burada nicel değişkenlere ilişkin ölçüler incelenecektir. Nicel dağılımlarda kullanılacak ölçüler dağılımın odaklaşma noktasını özetlemelidir. Bu tür ölçülere merkezi eğilim ölçüleri denir.
Bu ölçüler,
- Aritmetik Ortalama
- Medyan (Orta Değer)
- Mod (Tepe Değer)
- Geometrik Ortalama
- Harmonik Ortalama
- Kareli Ortalama
- Ağırlıklı Ortalama’dır.
Başka ortalama türleri de bulunmaktadır
2.Aritmetik Ortalama (Örneklem Ortalaması)
Gözlenen değerlerin tümü toplanıp, gözlem sayısına bölündüğünde elde edilen değer aritmetik ortalama denir.
- Anakütle Ortalaması
- Örneklem Ortalaması
- Serilerde ortalama
Xi : i. gözlem değeri fi : i. değerin frekansı mi : i. sınıfın orta noktası N : toplam gözlem sayısı
Basit Seri x = {1,2,3,4,5,6} basit serisinin aritmetik ortalaması?
Sınıflandırılmış (Frekans) Seri
Sınıflandırılmış (Frekans) Serinin Aritmetik Ortalaması
Gruplandırılmış Seri
3.Geometrik Ortalama
n tane x1, x2, … , xn değerinin çarpımının n. kökü geometerik ortalama olarak tanımlanır.
4.Harmonik Ortalama
Harmonik ortalama, gözlem sonuçlarının (birim değerlerinin) terslerinin aritmetik ortalamasının tersidir.
Aritmetik, Geometrik ve Harmonik Ortalamalar arasında H.O < G.O < A.O sıralaması vardır.
5.Medyan (Orta Değer)
Büyüklüklerine göre sıralanmış gözlemler grubunun merkezi değerine medyan denir.
Bazı durumlarda bir yarısı kendinden küçük bir yarısı kendinden büyük olan gözlem grubunun merkezi olarak tanımlanabilir.
6.Mod (Tepe Değer)
Bir veri grubunda n çok tekrarlanan değere mod denir.
Her değer yalnız bir kez ya da tüm değerler eşit miktarda bulunuyorsa mod yoktur.
7.Aritmetik Ortalama, Medyan ve Mod’un Karşılaştırılması
- A.O < Medyan < Mod ise,
Frekans eğirisi sola çarpıktır. Bu durumda negatif çarpıklık vardır.
- Mod < Medyan < A.O ise,
Frekans eğrisi sağa çarpıktır. Bu durumda pozitif çarpıklık vardır.
- A.O = Medyan = Mod
Frekans dağılımı simetriktir.
7.1. Bazı Özellikler
Aritmatik Ortalama:
- Anormal değerler (Uç değerler veya Outliers) aritmetik ortalamayı büyük ölçüde etkiler.
Medyan (Orta Değer):
- Anormal değerler tarafından etkilenmez! Birey sayısı ile etkilenir.
- Büyüklük sırasında karşılık gelen yer yönünden ortalamadır.
- Büyüklüklerine göre sıralanmış değerlerin çoğunluğu merkeze yakın ise medyan iyi bir merkezi ölçüsüdür.
Mod (Tepe Değer):
- Anormal değerlerin etkisinden bağımsızdır.
- Gözlem saysının az olması halinde değerler tekrarlanmayabilir. Bu nedenle tepe değer belirlenmeyebilir
7.2. Merkezi Eğilim Ölçülerinin Karşılaştırılması
Yalnız “Medyan (Orta Değer)” ve “Aritmetik Ortalama” iyi merkezi eğilim ölçüleridir. Orta değer ve aritmetik ortalama kolayca hesaplanabilir.
Orta değer bazı durumlarda aritmetik ortalamadan daha gerçekçi ve durumu daha iyi yansıtır. Fakat, matematiksel olarak kontrol etmek daha güçtür. Bu nedenle yargıya varmada daha az istenir. Aritmetik ortalama matematiksel olarak çalışmalara daha uygundur. Bu nedenlerle aritmetik ortalama pek çok durumlarda konum ya da merkezi eğilim ölçüsü olarak kullanılır.
8.Dağılım Ölçüleri
Merkezi eğilim ölçüleri birimlerin ilgili değişken bakımından aldıkları değerler hakkında genel bir bilgi vermekle beraber, birimlerin ne ölçüde, çok ya da az farklı değerlere sahip olup olmadığını göstermezler. Birimlerin ilgili değişken bakımından ne ölçüde farklı olduklarını ifade etmek için dağılım ölçüleri kullanılır.
Dağılım ölçüleri;
- Örneklem varyansı
- Ortalamadan sapmanın mutlak değerinin ortalaması (Ortalama Mutlak Sapma)
- Dörtte Birlikler (Kartiller)
8.1. Anakütle ve Örneklem Varyansları
Varyans, verinin ortalama etrafında nasıl dağıldığının sayısal bir ölçütür.
- Varyans
Varyans: Bir rassal değişken, bir olasılık dağılımı veya örneklem için istatistiksel yayılımın, mümkün bütün değerlerin beklenen değer veya ortalamadan uzaklıklarının karelerinin ortalaması şeklinde bulunan bir ölçüdür.
- Standart Sapma
Varyansın kare kökü standart sapma olarak adlandırılır.
- İki örneklem varyansının aritmetik ortalamasının yani (pooled sample variance) birleşik örneklem varyansını elde etmek için aşağıdaki formül kullanılır.
8.2. Ortalama Mutlak Sapma – OMS (Mean Absolute Deviation – MAD)
Yayılmanın ikinci ölçüsü olarak ortalama sapmaların mutlak değerlerinin toplamı söylenebilir ve buna ortalama mutlak sapma denir.
8.3. Dörtte Birlikler (Kartiller)
Medyan (Orta Değer) fikrinin genişletilmişi olarak, gözlemler tekrar eşit frekanslı iki gruba bölünebilir. Böylece gözlemlerin %25’i Q1’in alında, %25’i Q3’ün üzerine olmak üzere iki yeni Q1, Q3 değerleri tanımlanabilir. Q1 ve Q3 sayılarına kartiller (dörtte birlikler) denir.
Orta Değer Q1 ve Q3 ile gözlemleri eşit frekanslı dört gruba bölerler.
x = {1, 2, 3, 4, 4, 6, 7, 8, 9, 10, 10} için,
Orta Değer (Medyan yani Q2) 6 iken Q1’in değeri 3 ve Q3’ün değeri 9’dur.
Çeyreklikler fikri de ondalık (desiller) ve yüzdelikler (percentile) olarak genişletilebilir.
- Yüzdelikler (Percentile)
17., 43., 67. ve 85. inci yüzdelikleri bulalım.
- d = Q3 – Q1 farkına verilerin iç çeyrekler arası değişim genişliği (Interquartile Range) denir.
Dağılımın üç ölçüsünün karşılaştırması yapılabilir. Dörtlükler, ondalıklar ve yüzdeliklerde orta değer kolayca bulunabilir, fakat genellikle matematiksel olarak yapılması güçtür.
Ortalama mutlak sapmanın da hesaplanması basittir, ama o da aynı dezavantaja sahiptir. Karakteristikleri kolaylıkla incelenemez.
Varyasın hesaplanmas her ne kadar kolay olmasa da karşılaştırması yapılabilen matematiksel özelliklere sahiptir. Böylelikle dağılım ölçüsü olarak varyans kullanılabilir.
8.3.1. Kutu Grafik (Boxplot)
Kutu çizimleri, veri için çeyreklere dayalı grafiksel göserimlerdir. Kutu çiziminde medyan (orta değer – Q2), birinci (Q1) ve üçüncü (Q3) çeyrekler hesaplanır.
Medyan kutu içerisindeki çizgidir, Q1 kutunun altı ve Q3 de kutunun üstünü belirtir.
8.4. Çarpıklık Ölçütü
Çarpıklık bir simetriklik ölçüsüdür.
Bir kural olarak, negatif çarpıklık, verinin ortalamasının medyandan daha küçük olduğunu ve veri dağılımının sola çarpık olduğunu gösterir. Pozitif çarpıklık, verinin ortalamasının medyandan daha büyük olduğunu ve veri dağılımının sağa çarpık olduğunu gösterir.
8.5. Basıklık (ya da Sivrilik) Ölçütü
9.Değişim (Varyasyon) Katsayısı
Varyansın özellikleri incelendiğinde belli bir değişken bakımından iki kitlenin ya da örneklemin aritmetik ortalamaları eşit iken varyansı küçük olanın birbirine daha yakın değerlerden oluştuğu söylenebilir.
Örneğin, İki ayrı stoktaki mallar hemen hemen aynı ortalama fiyata sahipseler, daha büyük standart sapmaya sahip olan stok daha riskli görünecektir.
Örnek: İki şirketin son 5 yıllık satışlarında net kar yüzdeleri aşağıdadır.
Her iki şirketin ortalama kar yüzdelerini ve standart sapmalarını bulunuz ve karşılaştırma yapınız?
İki şirketin ortalama kar yüzdeleri birbirine eşittir.
Kar yüzdeleri bakımından A şirketindeki değişkenlik, B’ye göre daha azdır. Ayrıca değişim katsayıları için aşağıdaki eşitsizlik yazılır.
\[(D.K.)_1 = \frac{\sigma_A}{\mu_A}*100 < (D.K)_2 = \frac{\sigma_B}{\mu_B}*100 \]
Belli bir değişken bakımından iki kitlenin aritmetik ortalamaları farklı iken varyanslara bakarak homojen olan kitleyi belirlemek yanlış sonuçlar ortaya koyabilir. Böyle durumlarda yani beli bir değişken bakımından iki kitlenin aritmetik ortalamaları farklı iken değişim (varyasyon) katsayısı küçük olan kitlenin birbirne değerce daha yakın birimlerden oluşturduğu söylenebilir.
Örneklem değişim katsayısı aşağıda tanımlanmıştır.
\[D.K. = \frac{S}{\overline{x}}*100\]
NOT: Std. Sapma, Aritmetk Ortalama, Ortalama Mutlak Sapma aynı birimlerde ölçülürken (uzunluk, ağırlık gibi), Değişim Katsayısı ise birimsiz bir yüzde olmaktadır.
10. Kovaryans (Covariance)
Kovaryans verideki x ve y değişkenlerinin doğrusal ilişki ölçüsüdür. Pozitif kovaryans, değişkenler arasındaki pozitif lineer ilişkiyi, negatif kovaryans ise, değişkenler arasındaki negatif lineer ilişkiyi gösterir.
Örneklem ve Anakütle kovaryans formülleri aşağıdaki gibidir.
Kovaryans > 0 ve pozitif olmasına rağmen 0’a yakın olduğundan iki değişken arasında lineer bir ilişki yoktur denebilir.
11. Korelasyon Katsayısı (Correlation Coefficient)
Korelasyon katsayısı, verideki iki değişkenin kovaryansının değişkenlerin standart sapmalarına bölünmesidir. Lineer ilişki ölçüsünün standartlaştırılmasıdır.
Korelasyon, iki rassal değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir.
Örneklem ve Anakütle korelasyon formülleri aşağıdaki gibidir.
Negatif ve kuvvetli bir lineer ilişki vardır.
Kaynak: Fikri Akdeniz – Olasılık ve İstatistik