Lojistik Regresyon ve K-En Yakın Komşu

Giriş

Regresyon modelinde hedef değişkenin (bağımlı – y) nicel olduğunu biliyoruz. Ancak gerçek hayatta birçok durumda hedef değişken nicel değil nitel olabiliyor. Nitel değişken ikili (evet-hayır, içiyor-içmiyor, hasta-hasta değil) olabileceği gibi, kategorik (iyi-kötü-çirkin) de olabilir. Hatta bu kategorik değişken sıralı (ilk öğrenim – lise – üniversite) da olabilir. Bu şekildeki hedef nitel değişkenleri tahmin etmeye yönelik yapılan işlemler genel olarak sınıflandırma diye adlandırılmaktadır.

En yaygın olarak kullanılan üç sınıflandırma yöntemi; lojistik regresyon, lineer discriminant analizi ve k en yakın komşudur. Sınıflandırma için verilen yaygın örneklerden birisi de kredi notudur. Bankalar kredi verdikleri müşterilerle ilgili bazı bilgilere sahiptir. Örneğin gelir durumu, kendi evinde mi oturuyor, ücretli mi çalışıyor, başka borçları var mı, evli mi, yaşı kaç vb. Kredi verdiği bu müşterilerden bazıları kredilerini ödeyemeyecek duruma geliyor. Geçmiş müşteri bilgilerinden yola çıkan bankalar kredi müracaatında bulunan bir müşteriyi kredi notu iyi veya kötü diye sınıflandırıyor ve ona göre kredi verip vermeyeceğine karar veriyor. Kabaca söylemek gerekirse daha önce bekar, genç ve kirada oturanların çoğu kredisini ödeyemez duruma düşmüşse ve yeni gelen müşteri de genç, bekar ve kiracı ise banka bu müşteriye kredi verme konusunda pek istekli olmayacaktır. Çünkü bu profilin günah defteri kabarık 😉

Yukarıda verdiğimiz örnek aynı zamanda denetimli öğrenmeye de bir örnek oluyor. Makine öğrenmesi yöntemleri eğitim verisinin kullanılıp kullanılmadığına göre de ikiye ayrılıyor. Denetimli (supervised) ve denetimsiz (unsupervised). Türkçe literatürde ben supervised karşılığı olarak denetimli, eğitimli, gözetimli karşılıklarının kullanıldığını gördüm. Kendim denetimliyi kullanmayı tercih ediyorum. Banka örneğine geri dönecek olursak bankada yüz binlerce müşterinin bilgileri var. Bu bilgiler kullanılarak (nitelik, özellik, attribute, predictor) sınıflandırma algoritmamızı eğitiriz. Geçmiş öğrenme sonucunda algoritma bize bu adama kredi ver veya verme diye sonuç çıkarır. Denetimsiz öğrenmede ise herhangi bir eğitim söz konusu değildir. Burada esas amaç da zaten sınıflandırma değil veri içinde özellikleri birbirine benzeyen kayıtları gruplar altında toplamaktır. Denetimsiz öğrenmenin kullanılarak verinin gruplara ayrılmasına genel anlamda kümeleme diyoruz.

Yazar Hakkında
Toplam 145 yazı
Erkan ŞİRİN
Erkan ŞİRİN
2014'ten beri hem akademik alanda hem de sektörde pratik anlamda büyük veri ve veri bilimi ile ilgili çalışmalar yürütmektedir. Büyük veri ve veri bilimi ile ilgili birçok kurum ve şirkete danışmanlık ve eğitimler vermekte, projeler icra etmektedir. Çalışma alanları: büyük veri platformlarının kurulum ve yönetimi, büyük veri üzerinde makine öğrenmesi, olağan dışılık ve sahtecilik tespiti, akan veri işleme ve veri hazırlama sürecidir.
Yorumlar (Yorum yapılmamış)

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara