Nedir Bu Iris Çiçek Muhabbeti?

Merhaba , veri bilimleriyle uğraşan arkadaşlar çoğu kez iris çiçeği ile temas kurmuştur. Bu işe ilk başladığımda ben de “Nedir bu çiçek muhabbeti?” diye anlamakta güçlük çekmiştim. Sonra olayı öğrenince “Haaa!, olay bu muymuş yahu” dedim. Bu işe yeni başlayanlar veya hala iris muhabbetini bilmeyenler benim gibi eziyet çekmeden olayı şipşak anlasınlar diye bu yazıyı yazıyorum. Yukarıdaki fotoğrafta görüldüğü gibi iris bir çiçek. 1936’da adamın biri [1] (bilim insanı) bu çiçeğin üç türüne (setosa, versicolor, virginica) ait 50’şer tane, toplamda 150 tane olmak üzere çiçek bulmuş ve hepsinin üst ve alt çiçek yapraklarını ölçmüş. Bu ölçümden dört nitelikli [sepal-length (alt yaprak uzunluğu cm), sepal-with (alt yaprak genişliği cm), pedal-length (üst yaprak genişliği cm), pedal-width (üst yaprak uzunluğu cm)] ve 150 elemanlı bir veri seti elde etmiş. Bu veri seti makine öğrenmesi (machine learning) alıştırmalarında çok sıklıkla kullanılagelmiş. Veri setini buradan indirebilirsiniz.

Kaynak: Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems, O’Reilly.

Bu olayda amaç iris çiçeğinin dört niteliğini kullanarak hangi türe ait olduğunu tahmin etmek. Yani klasik bir sınıflandırma problemi. Aşağıda 150 kayıtlık veri setinin bir bölümü görülmektedir.

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
7.0,3.2,4.7,1.4,Iris-versicolor
6.4,3.2,4.5,1.5,Iris-versicolor
6.9,3.1,4.9,1.5,Iris-versicolor
5.5,2.3,4.0,1.3,Iris-versicolor
6.5,2.8,4.6,1.5,Iris-versicolor
5.7,2.8,4.5,1.3,Iris-versicolor
6.3,3.3,4.7,1.6,Iris-versicolor
4.9,2.4,3.3,1.0,Iris-versicolor
6.3,3.3,6.0,2.5,Iris-virginica
5.8,2.7,5.1,1.9,Iris-virginica
7.1,3.0,5.9,2.1,Iris-virginica
6.3,2.9,5.6,1.8,Iris-virginica
6.5,3.0,5.8,2.2,Iris-virginica
7.6,3.0,6.6,2.1,Iris-virginica
4.9,2.5,4.5,1.7,Iris-virginica
7.3,2.9,6.3,1.8,Iris-virginica
6.0,3.4,4.5,1.6,?

Yukarıdaki en son kaydın hangi türe ait olduğunu makine öğrenmesi ile tahmin etmeye çalışma problemi, sınıflandırma. Her bir satır, bir çiçeğe ait ölçüm değerlerini gösterir. Özellikler sırasıyla sepal-length (alt yaprak uzunluğu cm), sepal-with (alt yaprak genişliği cm), pedal-length (üst yaprak genişliği), pedal-width (üst yaprak uzunluğu). Sınıflarımız ise setosa, versicolor ve virginica. Lojistik regresyon yazımızda belirttiğimiz gibi lojistik regresyon binary sınıflandırmada üstün iken ikiden fazla sınıflandırmada lineer diskriminant analizi daha iyi sonuç veriyordu. Eğitim setimizdeki yaprak uzunluk ve genişliklerini kullanarak öğreniyoruz ve bunun karşılığında yeni kaydın üç adet sınıftan hangisine ait olduğunu tahmin ediyoruz. Iris setinin bu kadar yaygın olarak kullanılmasının sebebi yaprak uzunluk ve genişlikleri ile türler arasında güçlü bir ilişkinin olması hem de yeni başlayanlar için anlaşılması kolay olmasıdır. Lineer diskriminant analiziyle birlikte bu problemin çözümünde K-en yakın komşu yaklaşımı da kullanılabilir. Sınıfı bilinmeyen (soru işareti) yeni bir çiçeğin yaprak ölçüleri kendisine en yakın K adet çiçekten en çok hangi sınıfa mensup ise o sınıftadır diyeceğiz. Selamlar…

[1] R.A. Fisher. “The Use of Multiple Measurements in Taxonomic Problems.” Annual Eugenics 7:PartII (1936), 179–188.

Yazar Hakkında
Toplam 177 yazı
Erkan ŞİRİN
Erkan ŞİRİN
10 yılı aşkın süredir yurtiçi ve yurtdışında sektörde büyük veri mühendisliği, platform yönetimi ve makine öğrenmesi ile ilgili çalışmalar yürütmekte ve aynı zamanda birçok kurum ve şirkete danışmanlık ve eğitimler vermektedir. Çalışma alanları: Data ve MLOps platformları, gerçek zamanlı veri işleme, değişen veriyi yakalama (CDC) ve Lakehouse.
Yorumlar (3 yorum)
Ceyda
Ceyda Yanıtla
- 17:42

Gercekten cok yararli bir yazi olmus. Erasmusta bu kadar aciklayici turk kaynak bulmak zordu. Tesekkurler 🙂

    Erkan ŞİRİN
    Erkan ŞİRİN Yanıtla
    - 07:09

    Çok teşekkür ederim.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara