Anasayfa / Genel bir bakış / Veri Madenciliğinin Sınıflandırılması

Veri Madenciliğinin Sınıflandırılması

Veri madenciliği konusunda kafaları karıştıran konulardan biri de bir çok teknik, yöntem, algoritmanın ve modelin nasıl sınıflandırılacağına dairdir. Benim kafa bu konuda biraz karışık. Belli bir süredir bu konularla ilgilenmeme rağmen ne nerededir hala tam oturtamadım. Bu konuda Gökhan SİLAHTAROĞLU’nun sınıflandırmasını sizlerle paylaşacağım. Niye durduk yerde şimdi sınıflandırıyoruz? kimileri kabaca iki sınıfta topluyor: Denetimli (supervised) ve denetimsiz (unsupervised). Bazıları da üç tanedir demiş denetimli, denetimsiz ve hibrit. Ben olayı daha fazla karıştırmadan Gökhan Bey’in sınıflandırmasıyla sizi baş başa bırakıyorum.

  • Sınıflandırma
    • İstatistiğe Dayalı Algoritmalar
      • Bayesyen Sınıflandırma
      • Regresyon
      • CHAID
    • Mesafeye Dayalı Algoritmalar
      • En Yakın Komşu
      • En Küçük Mesafe Sınıflandırıcısı
    • Karar Ağaçları
      • CART
      • ID3
      • C4.5
      • Sprint
    • Genetik Algoritmalar
    • Yapay Sinir Ağları
  • Kümeleme
    • Hiyerarşik Yöntemler
      • SLINK Algoritması
      • Cure Algoritması
      • CHAMELEON Algoritması
      • BIRCH Algoritması
      • CLUCDUH Algoritması
    • Bölümlemeli Yöntemler
      • K-Ortalama Algoritması
      • PAM Algoritması
      • CLARA Algoritması
      • CLARANS Algoritması
    • Yoğunluğa Dayalı Algoritmalar
      • DBSCAN Algoritması
      • OPTICS Algoritması
      • DENCLUDE Algoritması
    • Grid Temelli Algoritmalar
      • STING Algoritması
      • Dalga Kümeleme
      • CLIQUE Algoritması
    • Genetik Algoritmalar
    • Yapay Sinir Ağları
  • Bağlantı Analizi Modeli
    • Apriori Algoritması
    • SETM Algoritması
    • Apriori TID Algoritması
    • GRI Algoritması

Hakkında Erkan ŞİRİN

2014'ten beri hem akademik alanda hem de sektörde pratik anlamda büyük veri ve veri bilimi ile ilgili çalışmalar yürütmektedir. Halihazırda İmpektra Bilişim A.Ş.'de büyük veri yöneticisi olarak çalışmakta olup aynı zamanda Gazi Üniversitesi Yönetim Bilişim Sistemleri doktora öğrencisidir. Büyük veri ve veri bilimi ile ilgili birçok kurum ve şirkete eğitimler vermekte ve projeler icra etmektedir. Çalışma alanları: büyük veri platformlarının kurulum ve yönetimi, büyük veri üzerinde makine öğrenmesi, olağan dışılık tespiti, sahtecilik tespiti, veri hazırlama sürecidir.

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Natural Language Toolkit(NLTK)

Doğal Dil İşleme kütüphanesi olan Natural Language Toolkit(NLTK)'i ve en sık kullanılan modüllerinden bahsedip Pyhthon'da uygulamalarını gerçekleştirdim.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir