Regresyon Notları

Bölüm 1

Lineer regresyon bir olayı, bir ilişkiyi açıklamak ve tahmin yürütmek için kullanılabilecek bir yaklaşımdır. Lineer regresyon ile bir bağımlı değişkeni (hedef değişken) etkilediğini düşündüğümüz bağımsız (predictor) değişkenleri kullanarak bir model kurarız. Bu modelle bağımsız değişkenlerin bağımlı değişkenimizi nasıl etkilediğini görebiliriz. Kurduğumuz modelle bağımsız değişkendeki değişimi ne kadar açıklayabildiğimiz ve modelin anlamlı olup olmadığını test edebiliriz.

Örneğin otomobil satış miktarı (OSM) bağımlı (y) değişken olsun. Televizyon reklamı (x1) ve basılı medya reklamı (x2) ve radyo reklamı (x3) bağımsız değişkenler olsun. Modelimi şu şekilde kuruyorum;

OSM= β_1TV + β_2Medya + β_3Radyo + β_0

Formülden kurtularak yazacak olursak; satış miktarı; β1 defa TV, β2 defa basılı medya ve β3 defa radyo reklamı ile diğer unsurların toplamına eşittir. Modeldeki β0 (diğer unsurlar) şu anlama gelir; hiç reklam yapmasak bile bir miktar otomobil zaten satılacaktır.

Lineer regresyon; eğer bir bağımsız değişken kullanıyorsak basit lineer regresyon, birden fazla bağımsız değişken kullanıyorsak çoklu regresyon adını alır. Yani modelimizde satış miktarını sadece TV reklamı ile açıklamaya kalksaydık basit regresyon modeli kurmuş olacaktık.

Regresyon Analizi ile Şunlar Amaçlanabilir
  1. Otomobil satış miktarı ile üç reklam kampanyası arasında bir ilişki var mıdır?
  2. Eğer otomobil satış miktarı ile reklam kampanyaları arasında bir ilişki varsa bu ilişki ne kadar güçlüdür?
  3. Her üç reklam kampanyası satış miktarını aynı oranda mı etkiliyor?
  4. Reklam bütçelerini kullanarak tam olarak kaç adet otomobil satılacağını tahmin edebilir miyiz?
  5. Modeldeki ilişki doğrusal mıdır?
  6. Reklam kampanyalarından herhangi ikisi bir sinerji oluşturur mu?
Basit Regresyon Şekli

Yukarıdaki basit lineer regresyon şeklinde de göreceğimiz üzere TV reklamı sıfır olduğunda (regresyon doğrusunun y eksenini kestiği nokta) zaten belli bir miktar satış var demektir. Denklemdeki β0 bunu ifade eder.

Mavi regresyon çizgisi kırmızı noktaların her birine olan uzaklığı asgariye indirecek şekilde geçer. Çünkü temsil gücünü ve genellenebilirliğini ancak bu şekilde sağlayabilir. Uzaklık konusunda da yaygın olan yöntem en küçük kareler kriteridir. Başka bir deyişle doğru, her bir noktanın kendisine olan uzaklığının karelerinin toplamının en küçük olduğu yerden geçmelidir. Buna kabaca noktaların tam ortasından geçiyor diyebiliriz 🙂

Aslında işin temelinde veri analizinde biz şunu yapmaya çalışırız. Bir araştırma evreni vardır. Diyelim ki Ankara’daki üniversite öğrencileri. Biz çoğunlukla bu araştırma evrenindeki tüm öğrencilere ulaşıp veri toplayamayız. Bu sebeple genelde verilerimizi araştırma evrenini temsil edecek nitelikte bir örneklemden toplarız ve analizimizi bu veriyi kullanarak yaparız. Örneğin araştırma evreninde merak ettiğimiz konu sigara içme alışkanlığı (günlük tüketim miktarı olabilir) ile cep telefonuna bakma sıklığı (hiçbir bildirim gelmediği halde durduk yere telefonu kurcalıyor mu?) arasındaki bir ilişki var mı? Buna kontrol değişken olarak cinsiyeti de ekleyebiliriz. Eğer bir ilişki varsa cinsiyete göre anlamlı bir fark oluyor mu? Yani erkekler kızlara göre daha fazla mı kurcalıyor ve bu farklılık istatistiksel olarak anlamlı (statistically significant) mı? Tabi burada bulacağımız sonuçlar hep örnekleme dayanarak olacak ve biz bunu belirli bir güven aralığında (sosyal bilimlerde genelde %95) evrende de var olduğunu kabul edeceğiz. Yani Ankara’da 20 bin üniversite öğrencisi var ve biz adam akıllı 600 öğrenci seçmişsek bu 600’den topladığımız verilere dayanarak diyeceğiz ki 20 binde de bu iş böyledir kardeşim.  Ama gerçekteki değerler mutlaka bizim örneklemimizden elde ettiğimiz değerlerden farklı olacaktır. Ne kadar gerçekçi sonuç yakalıyorsak o kadar başarılıyız demektir.

Yazıyı uzatmamak adına regresyon notlarının ilkini burada kesiyorum. Seriye devam edeceğim. Veriyle kalın…

Yazar Hakkında
Toplam 179 yazı
Erkan ŞİRİN
Erkan ŞİRİN
10 yılı aşkın süredir yurtiçi ve yurtdışında sektörde büyük veri mühendisliği, platform yönetimi ve makine öğrenmesi ile ilgili çalışmalar yürütmekte ve aynı zamanda birçok kurum ve şirkete danışmanlık ve eğitimler vermektedir. Çalışma alanları: Data ve MLOps platformları, gerçek zamanlı veri işleme, değişen veriyi yakalama (CDC) ve Lakehouse.
Yorumlar (Yorum yapılmamış)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara