R Kare ve Düzeltilmiş R Kare

Erkan ŞİRİN 11 Temmuz 2017 Doğrusal Regresyon, Model Değerlendirme, Regresyon, Teori 5 54393 910 kelime - 6 dakika184

Bu yazıya puan ver

(6 votes, average: 5,00 out of 5)

Regresyon notlarımızda bahsettiğimiz gibi regresyon eğrisi temsil ettiği noktalara olabildiğince en yakından geçmeye çalışıyordu. Bunun için her bir noktanın eğriye olan uzaklığı hesaplanıyor ve toplam mesafeyi en küçük kılan doğru regresyon doğrusu oluyordu.

Yukarıda kazanç ve tecrübe arasındaki ilişkiyi gösteren bir grafik bulunuyor. Bu grafiğe göre tecrübe arttıkça kazanç da artıyor görünüyor. Grafiğe bakarak doğrusal regresyon formülümüzü şu şekilde yazabiliriz:
Kazanç = Sabit + β x Tecrübe

Kazanç hedef/bağımlı değişken (y), Tecrübe ise bağımsız değişken X. Yani burada tecrübeye dayanarak bir meslek erbabının kazancı tahmin edilmeye çalışıyor. Günlük hayattan edindiğimiz tecrübelere göre de bunu kolaylıkla anlayabiliriz. Avukat, doktor, danışman vb. bir meslek erbabı tecrübesi arttıkça daha fazla kazanmaktadır. Formüldeki Sabit ise hiç tecrübeli olmasa bile bu meslek erbabının belli bir kazanca sahip olduğunu gösterir.

Şimdi bu doğrunun noktalara en yakın bir doğrultuda geçmesi gerektiğini söylemiştik. Bunu sağlamak için noktaların doğruya olan uzaklığını hesaplıyoruz. Bu uzaklığın en az olduğu doğru, regresyon doğrusunu oluşturuyor. Bu uzaklığın minimum olmasını sağlayan yöntem ise en küçük kareler yöntemidir.

y_i değeri ile tahmin edilen y_i^{^} değeri arasındaki mesafelerin karelerinin toplamının en düşük olduğu eğri (doğru denklemi) regresyon eğrisidir. Burada işe karelerin karışmasının sebebi eksi değerlerden kurtulmaktır. Bunun başka bir yolu da mutlak değer almaktır. Doğruya isabet edemeyen her noktaya atık diyoruz. Aslında tüm noktalar doğru üzerine denk gelseydi mükemmel bir resgresyon eğrisi olacaktı ancak bu fiiliyatta pek mümkün olmaz. Bu nedenle eğriye denk gelmeyen her nokta bizim için atıktır (residual). Bu artıkların karelerinin toplamına Atıkların Karelerinin Toplamı (AKT) diyelim ve şöyle formülüze edelim:

Atıkların Kareler Toplamı (AKT) = TOPLAM(y_i – y_i^{^})²

Şimdi bir de her bir veri noktası acaba ortalamaya ne kadar uzaklıkta ona da bir bakalım.

Her bir noktanın ortalamaya uzaklığının karesine de Ortalamaya Uzaklığın Kareler Toplamı (OUKT) diyelim.
Ortalamaya Uzaklığın Kareler Toplamı (OUKT) = TOPLAM(y_i – ȳ)²

R² ise bu iki değerden faydalanılarak hesaplanır.

R² = 1 - (AKT/OUKT)

Artıkların toplamının ortalamaların toplamına olan oranı ne kadar küçük ise R² o kadar yüksek olacaktır.

R²‘ın yüksek olması regresyon model uyumunun iyi olduğunu gösterir. Yukarıda da söylediğimiz gibi tüm noktalar regresyon doğrusu üzerinde olsaydı mükemmel bir modelimiz olurdu. Tüm noktalar doğru üzerinde olduğunda Artıkların Kareler Toplamı (AKT) sıfır olacağından R²‘e de 1’e eşit olacak ve alabileceği en yüksek değeri alacaktır.

Peki ya düzeltilmiş R Kare?

Yukarıda basit regresyon (tek bağımsız değişkenli) üzerinden örnek verdik. Ancak gerçek hayatta bağımlı değişkeni etkileyen birden fazla bağımlı değişken vardır. Regresyon iyilik uyum indeksi (goodness of fit) olarak R² kullandığımızda artıkların toplam karesi ne kadar düşük olursa uyum o kadar yüksek oluyor. Ancak bağımsız değişken sayısı arttıkça payda düşmeye devam edecektir. Böylelikle R² düşmeyecek ve ne kadar çok değişken modele katılırsa o kadar yüksek bir uyum ortaya çıkacaktır. Acaba gerçekte de öyle mi? Model karmaşıklığını azaltmak ve anlaşılabilir, yorumlanabilir (interpretable) modeller oluşturmak için hedef değişkene etkisi olmayan, az olan, etkisi ihmal edilebilen değişkenler modele dahil edilmez ve kafalar bulandırılmaz. Bu sebeple iyilik uyum indeksi kullanırken R² geliştirerek düzeltilmiş R² kullanılmaktadır. Düzeltilmiş R² ‘nin R² ‘den farkı gereksiz eklenen bağımsız değişkenleri cezalandırıyor olmasıdır. Formülde bunun nasıl olduğunu görelim:

p: bağımsız değişken sayısı, n: örneklem büyüklüğü

Aslında formüldeki 1 – R² , artıklar kareler toplamının ortalamaya uzaklıklar kareler toplamına oranıdır (AKT/OUKT). Bu oran zaten R² ‘nin temelini oluşturuyordu. Bu oran, başka bir oran ile çarpılarak düzeltilmiş sadece. O da örneklem büyüklüğü ve bağımsız değişken sayısının da içinde bulunduğu oran: (n-1)/(n-p-1). Formülde yeni orana dikkat edecek olursak n-1’in n-1’e bölümü 1’dir yani bir şeyi değiştirmez. Ancak paydada n’den değişken sayısı olan p çıkarılarak bu oranın 1’den büyük olması sağlanıyor. Oran 1’den fazla olacağı için Düzeltilmiş R² ‘yi azaltacaktır. İşte gereksiz değişkenler yüzünden model uyumunun cezalandırılması yoluyla elde edilen yeni uyum indeksi, düzeltilmiş R² ‘dir ve R² ‘den daha sağlıklı bir metrik, uyum indeksi oluşturur.

İyi kareler…

Adjusted R square Düzeltilmiş R kare R kare R square

Yazar Hakkında

Toplam 179 yazı

Erkan ŞİRİN

10 yılı aşkın süredir yurtiçi ve yurtdışında sektörde büyük veri mühendisliği, platform yönetimi ve makine öğrenmesi ile ilgili çalışmalar yürütmekte ve aynı zamanda birçok kurum ve şirkete danışmanlık ve eğitimler vermektedir. Çalışma alanları: Data ve MLOps platformları, gerçek zamanlı veri işleme, değişen veriyi yakalama (CDC) ve Lakehouse.

Tüm yazılarını gör

Şunlar da ilginizi çekebilir

İlgili içerik

Scikit-Learn Spark Deployment

İlgili içerik

Alternatif Regresyon Yöntemleri: Lasso Regresyon

Önceki yazı

Support Vector Machine (SVM)ile Sınıflandırma: R Örnek Uygulaması

Sonraki yazı

K En Yakın Komşu (K-Nearest Nighbor) Sınıflandırma: R ile Örnek Uygulama

Yorumlar (5 yorum)

MUHAMMED FURKAN GÜLŞEN Yanıtla

20 Ağustos 2020 - 13:54

Merhaba Hocam,

Elinize sağlık bilgilendirici bir yazı olmuş. Fakat bu konuyla ilgili aklıma takılan bir soru var. R’2 ve düzeltilmiş R’2 arasında ki farka bakarak model ile ilgili nasıl bir yorumda bulunuruz? Aradaki farkın büyümesi ve küçülmesi neyin göstergesidir?

Erkan ŞİRİN Yanıtla

20 Ağustos 2020 - 14:21

Düzeltilmiş R2 daha küçük olma eğilimindedir, çünkü paydaya ceza koyuyoruz. İkisi genelde birbirine yakın olur. Düzeltilmiş R2 ile R2 arası açıldıkça gereksiz fazla değişken kullanıyorsunuz anlamında yorumlanabilir.

yavuz Yanıtla

11 Kasım 2020 - 23:01

R2 regresyonunun sıfır olduğu şeklindeki boş hipotezini reddedebilir misiniz?

Veysel Aytekin Yanıtla

9 Eylül 2022 - 13:14

tesekkürler hocam, cok harika bir yazı

Münevver Çarban Yanıtla

13 Kasım 2023 - 00:26

Hocam merhaba düzeltilmiş r2 de örneklem boyutunu nasıl buluyoruz yardımcı olur musunuz?
Mesela;
R2: 0,94
D.R2: 0,93
Açıklayıcı değişken: 3
Örneklem boyutu kaçtır ?

R Kare ve Düzeltilmiş R Kare

Peki ya düzeltilmiş R Kare?

Erkan ŞİRİN

Bir yanıt yazın Yanıtı iptal et

Bir Şeyler Ara

R Kare ve Düzeltilmiş R Kare

Peki ya düzeltilmiş R Kare ?

Erkan ŞİRİN

Bir yanıt yazın Yanıtı iptal et

Bir Şeyler Ara

Peki ya düzeltilmiş R Kare?