Anasayfa / Genel bir bakış / Bootstrap (Yeniden Örnekleme) Nedir ?

Bootstrap (Yeniden Örnekleme) Nedir ?

Utku Kubilay ÇINAR

 

Bootstrap Yöntemi, istatistik alan(lar)ında sıklıkla kullanılan yöntemlerin başında gelmektedir. Bootstrap yöntemleri ya da algoritmalarındaki asıl amaç veriden, büyük veri setleri oluşturmak (üretmek) ve yeniden örnekleme yapmaktır.

Bootstrap yönteminde, yapılacak olan yorumu bazı parametrelerin istatistiksel çıkarımlarıyla yeniden çizilmesiyle yapılmaktadır. Ardından bu işlemin daha güvenilir olabilmesi için fazlaca tekrarlanır. Bootstrap yöntemiyle, varyans tahminleri başarılıyla elde edilmektedir ve varyans tahminleri konusunda sıklıkla kullanılmaktadır. Ayrıca Bootstrap metodu, örnek dağılışının normal olmadığı durumlarda ya da çok küçük veri setlerinde varyans analizine göre üstünlük taşımaktadır (TAKMA, Ç. ve ATIL, H).

Bootstrap metodu, yoğun matematik formüllerinden uzak, sınırlı varsayımlara sahip, anlaşılması ve kullanılması oldukça kolay bir yöntemdir (Simon ve Bruce, 1991). Özellikle varsayımların yetersiz kaldığı durumlarda güvenilir sonuçlar vermektedir. Bootstrap metodu, olasılıkta olduğu gibi (Takma, Ç. ve Atıl, H.), güven aralıkları, hipotez testi ve regresyon analizinde de kullanılmaktadır (Efron ve Tibshirani 1993).

Bootstrap Örneklemesi

Kitle dağılımı hakkında hiçbir varsayım yapılmamışsa, küçük hacimli örneklemede, kitle ortalaması için güven aralığı söyleyemeyiz, aralık tahmini yapamayız. Bu gibi sorunların altından kalmak için elimizdeki veri üzerinde “yeniden n hacimlik örneklemeler” yapılıp, ilgili istatistiğin değeri çok kez gözlenip, dağılımı hakkında fikir elde edilebilir. (Kaynak: http://80.251.40.59/science.ankara.edu.tr/ozturk/Dersler/ist312/Ders10/Ders10.pdf)

Uygulama

R programındaki hazır veri seti üzerinden Bootstrap örneklemesi kullanarak yeni gözlemler oluşturalım. “ACSWR” kütüphanesinden “nerve” veri seti bu analizde kullanılmıştır.

Yaptığımız işlemler sonucunda orjinal değerimiz 1.76 olarak bulunmuştur. Yaklaşık 1.000 tane bootstrap yani yeniden örnekleme yaptığımızda orjinal veriye olan yanlılığımız (bias) 0.012 olmuştur, standart sapmamız ise 0.16 olarak belirlenmiştir. Dağılımını bilmediğimiz bir veriden üretilen yeni örneklemlerin yanlılık ve sapma değerleridir.

Eğer 1.000 tekrar yerine 5.000 tekrar yapsaydık yani, bootstrap değerimizi (R) yükselttiğimizde yanlılık ve sapma değerimiz nasıl bir değişime uğrayacak bunu inceleyelim.

Görüldüğü üzere yanlılık hafif miktarda artmış ve standart sapmamız azalmıştır.

Başka bir Uygulama Yapalım

İris veri seti ile yeniden örnekleme yapalım ve ürettiğimiz veriler ile orjinal verilerin yanlılığını-sapmalarını inceleyelim.

Orjinal veriye göre ürettiğimiz değerlerin sapmaları ve yanlılıkları tablodaki gibidir.

Güven Aralıklarını İnceleyelim

Nokta tahmini yapmaktansa Güven Aralıkları ile yapılan tahminler daha fazla bilgi vermektedir. Bu sebeple Bootstrap yönteminde hipotez testleri ve güven aralıklarının kullanılmasındaki asıl amaç, veri setimizin dağılımını bilmeden hipotez testinin yapılmasıdır.

Olarak güven aralıklarını bulmuş oluyoruz.

 

Varsayımlarınızın sağlanması dileğiyle,

Veri ile kalın, Hoşça kalın..

 

Kaynakça

  • EFRON, B. and Tibshirani, R., (1993),  An introduction to the Bootstrap, Chapman and Hall, New York.
  • TAKMA, Ç. ve ATIL, H., (2006), “Bootstrap Metodu ve Uygulanışı Üzerine Bir Çalışma 2. Güven Aralıkları, Hipotez Testi ve Regresyon Analizinde Bootstrap Metodu”, Ege Üniversitesi, Ziraat Fakültesi Dergisi, 43(2):63-72.
  • WEHRENS, R., H. Putter and L.M.C. Buydens, (2000), The bootstrap: a tutorial. Chemometrics and Intelligent Laboratory Systems, 54:35-52.
  • https://www.datacamp.com/community/tutorials/bootstrap-r
  • Görsel Kaynak: https://www.statisticshowto.datasciencecentral.com/bootstrap-sample/

 

Hakkında Utku Kubilay ÇINAR

YTÜ - Yüksek Lisans Doğuş Teknoloji - Data Scientist

GÖZ ATMAK İSTEYEBİLİRSİNİZ

R ile Sıralı Logit Modelleri

Herkese merhaba, bu yazıda sıralı logit modelleri ve bu modellerin tahmincileri üzerine bir uygulama yapacağız. …

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir