Veri Madenciliğinin Sınıflandırılması

![]()
Veri madenciliği konusunda kafaları karıştıran konulardan biri de bir çok teknik, yöntem, algoritmanın ve modelin nasıl sınıflandırılacağına dairdir. Benim kafa bu konuda biraz karışık. Belli bir süredir bu konularla ilgilenmeme rağmen ne nerededir hala tam oturtamadım. Bu konuda Gökhan SİLAHTAROĞLU’nun sınıflandırmasını sizlerle paylaşacağım. Niye durduk yerde şimdi sınıflandırıyoruz? kimileri kabaca iki sınıfta topluyor: Denetimli (supervised) […]
Lojistik Regresyon ve K-En Yakın Komşu

![]()
Giriş Regresyon modelinde hedef değişkenin (bağımlı – y) nicel olduğunu biliyoruz. Ancak gerçek hayatta birçok durumda hedef değişken nicel değil nitel olabiliyor. Nitel değişken ikili (evet-hayır, içiyor-içmiyor, hasta-hasta değil) olabileceği gibi, kategorik (iyi-kötü-çirkin) de olabilir. Hatta bu kategorik değişken sıralı (ilk öğrenim – lise – üniversite) da olabilir. Bu şekildeki hedef nitel değişkenleri tahmin etmeye […]
Regresyon Notları

![]()
Bölüm 1 Lineer regresyon bir olayı, bir ilişkiyi açıklamak ve tahmin yürütmek için kullanılabilecek bir yaklaşımdır. Lineer regresyon ile bir bağımlı değişkeni (hedef değişken) etkilediğini düşündüğümüz bağımsız (predictor) değişkenleri kullanarak bir model kurarız. Bu modelle bağımsız değişkenlerin bağımlı değişkenimizi nasıl etkilediğini görebiliriz. Kurduğumuz modelle bağımsız değişkendeki değişimi ne kadar açıklayabildiğimiz ve modelin anlamlı olup olmadığını […]
R ile Normallik Testi

![]()
Veri seti üzerinde yaptığımız bir çok veri analizi verinin normal dağıldığı varsayımına dayanır. Veri analizine başlamadan önce verimizin normal dağılıma uygun olup olmadığına bakmamızda fayda var. Normallik kontrolü için yaygın olarak kullanılan testlerden birisi de Shapiro-Wilks testidir. Kullanımı oldukça basittir. Sadece numeric (numeric factor) verimizi argüman olarak shapiro.test(verimiz) fonksiyonuna ekliyoruz ekliyoruz. Verimiz: Verimizin numeric factor olduğunu […]
R ile Excel Tablosundan Veri Okumak, UTF-8 kodlamak

![]()
Bu yazımızda bir çok insanın sık kullandığı Excel tablosundan R çalışma ortamına veri almayı birlite uygulayacağız. Yüklemek için kullanılacak örnek dosya buradadır. Öncelikle xlsx paketini yüklememiz gerekir. İndirdiğimiz xlsx kütüphanesini çalışma ortamımıza yüklüyoruz. Paket indirmek ile paketi çalışma ortamına çağırmanın farklı şeyler olduğunu unutmayalım. Çalışma dizinimizi ayarlayalım (sizinki farklı olabilir) Çalışma ortamımızda bulunan Expertiz_Oz.xlsx dosyamızı utf-8‘e kodlayarak […]
R ile Veri Dosyası Yüklemek ve Bilinmeyen Sütun İsimlerini Atamak

![]()
R, veribilimciler ve bilim insanları için en önde gelen ve arkasında güçlü bir topluluk bulunan açık kaynaklı dillerden birisidir. Bu yazımda kısaca R ile ortama veri dosyası yüklemeyi ve bu veride bulunmayan/bilinmeyen sütun isimlerinin nasıl atanacağını anlatacağım. Kullanılacak örnek veri dosyası buradadır… Öncelikle R için bir çalışma klasörü oluşturalım ve yukarıdaki bağlantıda bulunan veri dosyamızı […]
Veri Madenciliği ve Makine Öğrenmesi Kitapları

![]()
Veri madenciliği hadi neyse de makine öğrenmesiyle ilgili Türkçe kitap yok gibi. Ethem Alpaydın’ın İngilizce’den çeviri bir kitabı var onun adı da Yapay Öğrenme. Anladığım kadarıyla machine learning Türkçe literatürde hem makine öğrenmesi hem de yapay öğrenme olarak kullanılıyor. Ben makine öğrenmesi isminde Türkçe bir kitabı sadece M.Erdal Balaban ve Elif Kartal’ın yazdığı Veri Madenciliği […]
R ile Veri Tabanına Bağlanmak: SQL Server ve ODBC Örneği

![]()
R dili istatistiksel hesaplamalar ve veri görselleştirmesine imkan veren açık kaynaklı ücretsiz bir dildir. R dilinin arkasında güçlü bir topluluk (community) bulunmaktadır. Son yıllarda sadece istatistikçiler ve akademisyenler değil veri bilimcileri arasında da oldukça popülerlik kazanmış bir dildir. Bir veri bilimi ekibinin üzerinde çalışmak istediği veri seti genellikle ilişkisel veri tabanlarında saklanmaktadır. Eğer bu veriler […]
Veri Bilimci Kimdir? – Data Scientist Kimdir?

![]()
Bilgi teknolojilerinin gelişmesiyle birlikte veri edinme, saklama, iletme ve işleme maliyetleri oldukça düşmüştür. Gün geçtikçe birim depolama maliyetleri düşüyor, ağ cihazlarının veri aktarım kapasiteleri artıyor, bilgisayarların işlem gücü artıyor. Örneğin veri depolama konusunda; disketlerden, CD’lere oradan DVD’ye, 4-5 GB’lik harddisklerden terabaytlık harddisklere uzanan muazzam bir veri depolama yeteneği artışı var. Sadece bir haftalık tatilde bir […]
Veri Bilimi (Datascience) Nedir, Veri Bilimci (Datascientist) Kimdir?

![]()
Daha büyük veri (big data) nedir ne değildir derken son yıllarda ortalıkta bir de veri bilimi, “datascience“, tabiri dolaşmaya başladı. Ülkemizin her ne kadar bu kavramlarla tanışıklığı yeni yeni olsa da dünyada epey bir yaygınlık kazanmaya başladığını görüyoruz. Aslında bu yaygınlık doğal bir gelişimin sonucu, yani kimse yapmacık yere veri bilimi, veri bilimci, “datascientist”, büyük […]