Alternatif Regresyon Yöntemleri: Lasso Regresyon
Son yıllarda boosting ve yapay sinir ağları(artificial neural network) algoritmaları sıkça kullanılan populer yöntemler olsa da çalışmanın amacı ve/veya veri setlerindeki kısıtlar nedeniyle regresyon modelleri de hala en sık başvurulan yöntemler arasında yerini korumaktadır. Ancak regresyon belli varsayımlara dayanır. Bu varsayımların sağlanamadığı durumlarda çeşitli alternatif yöntemler ele alınabilir. Bu yazının konusu da çoklu doğrusal bağlantı problemi(multicollinearity) ile karşılaşılan durumlarda kullanılabilecek yöntemlerden biri olan Lasso Regresyon’dur.
ÇOKLU DOĞRUSAL BAĞLANTI PROBLEMİ
Çoklu doğrusal bağlantı problemi, regresyon modellerinde bağımsız değişkenlerden iki veya daha fazlası arasında doğrusal ya da doğrusala yakın ilişki olması durumudur. Çoklu doğrusal bağlantı problemi nedeniyle, parametrelerin gerçeğinden uzak, çok büyük veya çok küçük zıt değerler alması, R kare değerinin olması gerekenden yüksek çıkması, parametrelerin varyanslarının önemli ölçüde artması, dolayısıyla parametrelerin t testine göre önemsiz çıkması gibi sorunlar yaşanabilmektedir.
Çoklu doğrusal bağlantı probleminin tespiti için korelasyon katsayısı, varyans artırıcı faktör (Variance Inflaction Factor, VIF), Ferrar ve Glauber Tekniği gibi çeşitli yöntemler kullanılabilir.
Bu konuda en sık kullanılan yöntem olan VIF, bağımsız değişkenleri sırayla bağımlı değişken yaparak R kare hesaplar, burdan çıkarım yapar. Literatürde, yapılan çalışmaya göre değişiklik göstermekle birlikte, genelde VIF 10’dan büyükse çoklu bağlantının olduğuna dair yorum yapılır.
VIF değeri yüksek değişkenlerin modelden çıkartılması, örneklem büyüklüğünün arttırılması, birbirleri ile ilişkili olan değişkenlerin birleştirilmesi veya Ridge, Temel Bileşenler, Lasso Regresyon gibi alternatif regresyon yöntemleri kullanılması bu sorunun çözümü için kullanılabilir.
LASSO REGRESYON
Lasso (Least Absolute Shrinkage and Selection Operator) Regresyon, en küçük kareler(EKK) yöntemine alternatif yanlı tahmin yöntemlerinden biridir. Çoklu doğrusal bağlantı ve aşırı öğrenme sorunları için kullanılabilir. Lasso Regresyon, hem değişken seçiminin hem de regularizasyonun aynı anda gerçekleştiği bir regresyon tekniğidir. Etkili ve hızlı olması nedeniyle büyük veri setlerinde yaygın olarak uygulanmaktadır.
EKK modelinin kurulamayacağı kadar az gözlem sayısının olduğu durumlarda, çapraz doğrulama ve ceza parametresi sayesinde, model kurabilmesi nedeniyle biyoistatistikte sıkça kullanılır.
Bu yöntemde (Ridge regresyonda da olduğu gibi) bir ceza terimi kullanılarak (L1 tipi cezalandırma) katsayılar sıfır olmaya doğru zorlanır. Bu ceza teriminin değeri regresyon katsayılarına uygulanacak büzülme miktarını belirler.
EKK, RSS(residual sum of squares)’yi minimize edecek katsayıları bulmaya çalışır.
Lasso Regresyon, yine aynı amaçla formüle ceza terimi ekler.
Burada λ sıfıra eşit olduğunda EKK ile aynı sonuç elde edilir. λ yeterince büyük olduğunda ise bazı katsayıları tam olarak sıfıra eşit olmaya zorlama etkisine sahiptir. Lasso böylece değişken seçimini gerçekleştirir.
Lasso Regresyon’un Görsel Açıklaması
Lasso Regresyon’un klasik EKK’dan farkı formül olarak bir önceki bölümde anlatılmıştır. Bu bölümde ise daha iyi anlaşılabilmesi için görsel şekilde ele alınacaktır. Aşağıda solda bulunan grafikte kırmızı noktaların öğrenim(train) verileri olduğunu varsayılsın. EKK ile model fit edildiğinde en düşük hata kareleri toplamı en az olacak şekilde kırmızı çizgi ile gösterilen model kurulacaktır. Ancak test verilerini göz önüne alındığında EKK’nın aşırı öğrenme yaptığını ve test verilerinde yüksek varyanslı tahminler yaptığı görülmektedir.
Lasso Regresyon’un buradaki amacı yeni bir doğru bulmaktır. Yani yeni doğruya yanlılık(bias) ekleyerek model yeniden fit edilir. Bu durumda model yanlı ama düşük varyanslı hale gelmektedir.
Bu durum “doğrunun açısını değiştirerek “weight” değişkeninin hassasiyetinin azaltılması” olarak da yorumlanabilir. Bu aşamada lambda’nın değerini bulmak gerekecektir. Bunun için olabildiğince fazla λ ile çapraz doğrulama yapılarak optimum λ’ya karar verilir. (Modelde intercept haricindeki tüm parametrelere ceza uygular.) Genelde 10-fold cross validation kullanılır.
λ artıkça doğrunun eğimi grafiklerde görüldüğü gibi artacaktır ve λ yeterli büyüklüğü sahip olduğunda ilgili parametre yukarıda en sağdaki grafikte görülebileceği gibi sıfıra eşit olacaktır. (bu noktada x kaç olursa olsun y değişmeyecektir.) Lasso regresyonda değişken seçimi bu şekilde gerçekleşir.
Aşağıda değişken elemesi için bir örnek verilmektedir.
Problemde örneklem grubunun bedenlerinin(size) tahmin edildiği varsayılsın. Model değişkenleri kilo, yağ oranı, burç ve koşma hızı olsun.
Bu durumda regresyon formülü:
Beden: β0 + β1 ∗ 𝐾𝑖𝑙𝑜+ β2 ∗ 𝑌𝑎ğ 𝑂𝑟𝑎𝑛𝚤+ β3 ∗ 𝐵𝑢𝑟ç+ β4 ∗ 𝐾𝑜ş𝑚𝑎 ℎ𝚤𝑧𝚤
λ ∗ (|β1| + |β2| + |β3| + |β4|)
λ değerini artırdıkça “β1” ve “β2” parametreleri biraz azalacak, diğer alakasız parametreler ise sıfır olacaktır.
Beden: β0 + β1 ∗ 𝐾𝑖𝑙𝑜+ β2 ∗ 𝑌𝑎ğ 𝑂𝑟𝑎𝑛𝚤+ 𝟎 ∗ 𝐵𝑢𝑟ç+ 𝟎 ∗ 𝐾𝑜ş𝑚𝑎 ℎ𝚤𝑧𝚤
Lasso regresyon ile model kurulduğunda β1 ve β2 katsayılarında ufak azalmalar meydana gelecek, beta 3 ve beta 4 değişkenleri gibi alakasız değişkenlerin kaysayıları ise sıfır olacaktır.
Lasso Regresyon ile Ridge Regresyon’un Farkı
Lasso Regresyon, birçok çalışmada Ridge Regresyon ile karşılaştırılmaktadır. Ridge Regresyon ile Lasso Regresyon’nun çalışma yöntemi birbiri ile çok benzerdir. Her ikisi de bir ceza parametresi ile yanlı ancak düşük varyanslı modeller kurar. Formüllerinde ufak bir farklılık vardır. Ridge Regresyon ceza parametresi olarak lambda*katsayının karesi’ni kullanır. Lasso Regresyon ise lambda*katsayının mutlak değerini kullanır.
Ridge Regresyon’da herhangi bir parametre sıfıra eşitlenmez, yani değişken seçimi yapmaz. Lasso Regresyon bu özelliği ile daha sade ve yorumlanabilir modeller sunar. Tüm değişkenlerin mutlaka kullanılması gereken durumda ile Ridge Regresyon daha avantajlı olacaktır. Lasso Regresyon, Ridge Regresyona niteliksel olarak benzer davranışa yol açar, çünkü λ arttıkça, varyans azalır ve yanlılık artar. Lasso Regresyon, bir tahmin alt kümesini içeren daha basit ve daha yorumlanabilir modeller üretmesi açısından Ridge Regresyona göre büyük bir avantaja sahiptir.
KAYNAKÇA
Linear Model Selection And Regularization – Nathan Bastian
Mikrobiyomu Oluşturan Taksonomik Ünitelerin Ağ Analizi İle İncelenmesi – Burak TAYLAN
Yumurta İç Ve Diş Kalite Özellikleri Arasindaki İlişkiyi Belirlemede Ridge Ve Lasso Regülarizasyon Yöntemlerinin Karşilaştirilmasi – Mehmet Nur Çiftsüren
Hastanelerin Finansal Ve Faaliyet Durumlarinin Veri Madenciliği Yöntemleri İle Değerlendirilmesi – Nurettin ÖNER
https://statquest.org/regularization-part-1-ridge-regression/
https://medium.com/kaveai/ridge-ve-lasso-regresyonu-temel-matemati%C4%9Fi-ve-python-uygulamas%C4%B1yla-363916e32d8d
Japon Bıldırcınlarında Yumurta Ak İndeksinin Ridge Regresyon Yöntemiyle Tahmin Edilmesi – Fatih Üçkardeş, Ercan Efe, Doğan Nariç, Tülin Aksoy