Lojistik Regresyon ve K-En Yakın Komşu

Giriş

Regresyon modelinde hedef değişkenin (bağımlı – y) nicel olduğunu biliyoruz. Ancak gerçek hayatta birçok durumda hedef değişken nicel değil nitel olabiliyor. Nitel değişken ikili (evet-hayır, içiyor-içmiyor, hasta-hasta değil) olabileceği gibi, kategorik (iyi-kötü-çirkin) de olabilir. Hatta bu kategorik değişken sıralı (ilk öğrenim – lise – üniversite) da olabilir. Bu şekildeki hedef nitel değişkenleri tahmin etmeye yönelik yapılan işlemler genel olarak sınıflandırma diye adlandırılmaktadır.

En yaygın olarak kullanılan üç sınıflandırma yöntemi; lojistik regresyon, lineer discriminant analizi ve k en yakın komşudur. Sınıflandırma için verilen yaygın örneklerden birisi de kredi notudur. Bankalar kredi verdikleri müşterilerle ilgili bazı bilgilere sahiptir. Örneğin gelir durumu, kendi evinde mi oturuyor, ücretli mi çalışıyor, başka borçları var mı, evli mi, yaşı kaç vb. Kredi verdiği bu müşterilerden bazıları kredilerini ödeyemeyecek duruma geliyor. Geçmiş müşteri bilgilerinden yola çıkan bankalar kredi müracaatında bulunan bir müşteriyi kredi notu iyi veya kötü diye sınıflandırıyor ve ona göre kredi verip vermeyeceğine karar veriyor. Kabaca söylemek gerekirse daha önce bekar, genç ve kirada oturanların çoğu kredisini ödeyemez duruma düşmüşse ve yeni gelen müşteri de genç, bekar ve kiracı ise banka bu müşteriye kredi verme konusunda pek istekli olmayacaktır. Çünkü bu profilin günah defteri kabarık 😉

Yukarıda verdiğimiz örnek aynı zamanda denetimli öğrenmeye de bir örnek oluyor. Makine öğrenmesi yöntemleri eğitim verisinin kullanılıp kullanılmadığına göre de ikiye ayrılıyor. Denetimli (supervised) ve denetimsiz (unsupervised). Türkçe literatürde ben supervised karşılığı olarak denetimli, eğitimli, gözetimli karşılıklarının kullanıldığını gördüm. Kendim denetimliyi kullanmayı tercih ediyorum. Banka örneğine geri dönecek olursak bankada yüz binlerce müşterinin bilgileri var. Bu bilgiler kullanılarak (nitelik, özellik, attribute, predictor) sınıflandırma algoritmamızı eğitiriz. Geçmiş öğrenme sonucunda algoritma bize bu adama kredi ver veya verme diye sonuç çıkarır. Denetimsiz öğrenmede ise herhangi bir eğitim söz konusu değildir. Burada esas amaç da zaten sınıflandırma değil veri içinde özellikleri birbirine benzeyen kayıtları gruplar altında toplamaktır. Denetimsiz öğrenmenin kullanılarak verinin gruplara ayrılmasına genel anlamda kümeleme diyoruz.

Yazar Hakkında
Toplam 174 yazı
Erkan ŞİRİN
Erkan ŞİRİN
10 yılı aşkın süredir yurtiçi ve yurtdışında sektörde büyük veri mühendisliği, platform yönetimi ve makine öğrenmesi ile ilgili çalışmalar yürütmekte ve aynı zamanda birçok kurum ve şirkete danışmanlık ve eğitimler vermektedir. Çalışma alanları: Data ve MLOps platformları, gerçek zamanlı veri işleme, değişen veriyi yakalama (CDC) ve Lakehouse.
Yorumlar (Yorum yapılmamış)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara