Ağaca Dayalı Yöntemlerde Bagging ve Boosting Arasında ne Fark var?

Mustafa Vahit KESKİN 18 Şubat 2019 Genel bir bakış 1 5076 531 kelime - 4 dakika89

Bu yazıya puan ver

(No Ratings Yet)

Random Forests, GBM, XGBoost’un bu yaklaşımlar ile ne ilgisi var?

Merhabalar,

Soru: Ağaca dayalı yöntemlerde “Bagging” ve “Boosting” ifadeleri geçiyor bunlar ne anlama gelmektedir ve aralarında ne fark vardır?

Cevap: İki yöntemde teknik olarak aşırı öğrenme ve model performanslarını arttırmaya yönelik ortaya çıkan yaklaşımlardır.

Bagging, “bootstrap aggregation” ifadesinin kısaltılmışıdır. Bu ne anlama gelir? Yeniden örneklem yöntemi ile elde edilen ağaçların bir araya getirilmesi anlamına gelir. Bu açıdan tek ağaç yapılarına bambaşka bir bakış açısı getirmiş ve makine öğrenmesi dünyasını ileri taşmıştır. Bu yöntemde örnek veri seti içerisinden yerine koyacak şekilde tekrar tekrar örnekler çekilerek yeni ağaçlar oluşturulur ve bu ağaçlardan ortaya bir topluluk çıkar. Ağaç topluluğu. Bu sebeple topluluk öğrenme yöntemleri olarak anılır. Ortaya çıkan ağaçların hepsi modelleme için kullanılarak her birisine fikri sorulur. Her birisinin fikri değerlendirilerek bir oylama/ortalama fikir alınarak tahmin işleminin sonucu tek bir ifade olarak ortaya sunulur. Bagging bir metodoloji olarak görülmelidir. Örneğin CART algoritması bag edildiğinde ortaya bagged tree çıkar. CART algoritması hem gözlem hem değişken bazında bag edildiğinde ortaya Random Forests çıkar.

Bu çabanın sonucunun bir başka şekilde ifadesi: gözlem ve değişken bazında rassallık sağlanır, aşırı öğrenme problemi hafifler ve tahmin başarısı artar.

Boosting yöntemleri ise tek bir cümle ile ifade edilecek olursa: artık optimizasyonuna dayalı performans arttırmaya çalışır. Yani modeller adaptiftir. Kümülatif bir hata değerlendirme söz konusudur. Boosting de bir metodoloji olarak görülmelidir. AdaBoost, Gradient Boosting Machines, XGboost özelliklerini bu “boost” etme yaklaşımından almıştır. Temelinde zayıf sınıflandırıcıları bir araya getirilmesi fikri vardır. Bu fikrin algoritmik karşılığı ise tek bir tahminsel model formunda olan modeller serisi oluşturmaktır. Seri içerisindeki bir model serideki bir önceki modelin tahmin artıklarının/ hatalarının (residuals) üzerine kurularak (fit) oluşturulur. İşte burada adaptif learning kavramı daha iyi anlaşılacaktır. Ağaçlar bağımsız değil bağımlıdır.

Bagging ve boosting arasındaki en önemli fark budur. Oluşturulacak olan ağaçların bir önceki ağaçlar ile bağımlılıkları olup olmaması ve hata optimizasyonunun artıklar üzerinden kümülatif olarak olup olmamasıdır.

Netice olarak birden fazla ağaç ile çalışmak, gözlem ve değişken seçiminde rassallığı kullanmak, bağımsız ağaçlar ya da bağımlı ağaçlar oluşturmak fikirlerinin harmanlanarak zirveye ulaştığı algoritmalar GBM, XGboost ve LightGBM gibi algoritmalardır. En temelindeki çok ince konu ise RASSALLIK sağlamaya çalışmaktır.

Tüm bu bilgilere ve bu bilgilerin detaylı uygulamalarına aşağıdaki Udemy eğitiminden erişebilirsiniz.

https://www.udemy.com/veri-bilimi-ve-makine-ogrenmesi-egitimi/?couponCode=VBO_ML_INDIRIM

VeriBilimiHapBilgiler1

Yazar Hakkında

Toplam 12 yazı