Spark Dataframe İçindeki Kategorik Nitelikleri Otomatik Olarak Seçmek

Merhaba. Spark dataframe ile çalışırken zaman zaman içindeki kategorik değişkenleri seçeriz. Özellikle makine öğrenmesi öncesinde veri hazırlığı aşamasında bunu mutlaka yapmalıyız. Çünkü kategorik nitelikler veri hazırlığı sürecinde stringIndexer, OneHotEncoder gibi daha farklı aşamalardan geçer. Bu yazımızda Spark dataframe içindeki nitelikleri kategorik ve nümerik olarak ayırt eden ve iki farklı liste içinde bunları toplayan spark kodlarını yazacağız. […]
Apache Spark DataFrame İçinden Değerlere Ulaşmak

Merhabalar. Bu yazımızda Apache Spark Dataframe içindeki tekil bir değeri basit veri türünde (Int, Double vb.) nasıl elde edeceğimizi bir örnek ile göreceğiz. Benim yaptığım çalışma esnasında kullandığım ortam bilgileri: İşletim sistemi: Windows 10 64 bit Pro IDE: Intellij IDEA Community Edition Spark 2.3.1 Dil: Scala Kütüphaneler import org.apache.spark.sql.SparkSession import org.apache.log4j.{Logger, Level} Log Seviyesini ERROR […]
Ubuntu Kafka Kurulumu

Apache Kafka, büyük miktarlarda gerçek zamanlı veriyi verimli bir şekilde ele almak için tasarlanmış popüler bir dağıtık mesaj sistemidir. Bir Kafka kümesi(cluster), sadece yüksek derecede ölçeklenebilir ve hataya dayanıklı olmakla kalmaz, aynı zamanda ActiveMQ ve RabbitMQ gibi diğer mesaj platformlarına kıyasla çok daha yüksek bir performansa sahiptir. Genel olarak yayınla (publish) / abone ol(subscribe) mesajlaşma […]
Windows 10 Üzerine Kafka Kurmak, Mesaj Okumak ve Yazmak

Merhaba, bu yazımızda akan veri işleme ve yönetmede oldukça popüler olan Apache Kafka’nın Windows 10 üzerine kurulumu ve temel komutlarından bahsedeceğiz. Ön Gereksinimler Java kurulu olmalı Sıkıştırma programı kurulu olmalı (Örn:7-zip) ———- 1. Zookeeper Kurulumu: Bir çok Apache projesi gibi Kafka da çalışmak için Zookeeper’ın varlığına ihtiyaç duyuyor. Zookeeper’ı buradan indirebilirsiniz. Zookeeper için C veya […]
Spark Dataframe&Dataset Operasyonları-2:

Merhaba, bu yazımızda veri ön hazırlığı aşamasında, veri yüklerken, Spark Dataframe oluştururken, dataframe şekillendirirken, onu dönüştürürken, dataframe üzerinde veri keşfi yaparken vb. işlemler için kullandığım spark yapısal API operasyonlarından faydalı bulduklarımı paylaşacağım. Görkemli ve haşmetli makine öğrenmesi, derin öğrenme ve yapay zeka modelleri ile kedileri ve köpekleri ayırmak dururken bu tür basit işlerle niye uğraşıyorsun […]
Kovaryans Matrisi (Covariance Matrix) Nedir?

Kovaryans iki değişken arasındaki doğrusal ilişkinin değişkenliğini ölçen bir kavramdır. Betimsel istatistiktir. Yani var olan bir şeyi bize söyler. Ortada tahmin yoktur. Sonucun pozitif olması artan bir doğrusal ilişkiyi, negatif olması azalan bir doğrusal ilişkiyi ve sıfır civarında olması ilişkinin olmadığını gösterir. Kovaryans matrisi ise bu değişkenlerin karşılıklı kovaryans değerlerinin bulunduğu bir matristir. Aşağıda örnek […]
Apache Spark ile Artık İdeal Küme Sayısını Bulmak Daha Kolay

Bildiğimiz gibi makine öğrenmesinde öğrenme yöntemleri genel olarak denetimli (supervised) ve denetimsiz (unsupervised) şeklinde ikiye ayrılıyor. Denetimli yöntemlerde sınıflandırma ağırlık kazanırken denetimsiz yöntemlerde ise kümeleme öne çıkmaktadır. Sınıflandırmada veri içinde etiketlenmiş bir hedef değişken bulunurken kümelemede ise herhangi bir hedef değişken bulunmaz. Bu nedenle kümeleme daha çok veri içindeki nesnelerin doğal gruplanmalarını ortaya çıkarmaya yöneliktir. […]
Windows 10 Spark-2 Kurulumu

Apache Spark büyük veri analizinin en önde gelen platformu olarak popülerliğini ve önemini gittikçe arttırıyor. Bir çok insan Spark’ın bu değerini farkettiğinden Spark öğrenmeye başlıyor. Birçok kullanıcının bilgisayarında Windows işletim sistemi kurulu. Spark’ı Windows işletim sistemi üzerine de kurarak kullanabiliriz. Ancak bu hususta çok detaylı bir kılavuz olmadığından bir çok Spark öğrencisi Windows üzerinde Spark […]
Apache Spark 2.3.0 OneHotEncoderEstimator: Scala Örnek Uygulaması

Apache Spark 2X’e geçtikten sonra dördüncü sürümünü genel kullanıma sundu. Son sürüm 2.3.0. Bu sürümle birlikte gelen bir çok yenilik arasında MLlib kütüphanesindeki OneHotEncoderEstimator da yer alıyor. Bu sınıf, makine öğrenmesinde veri hazırlığı aşamasında kategorik niteliklerin vektör haline getirilmesine katkıda bulunuyor. Eskisinden farkı; sınıf Transformer’dan Estimator’a dönmüş. Anlaşılabilecek değişiklik; eski sürümde nitelikleri tek tek girdi olarak […]
Linux Kullanıcı Ekleme, Gruba Ekleme, Parola-Şifre Belirleme

Linux’ta sık sık yapmayıp da ara sıra yaptığımız bazı şeyleri unutuyoruz. Ben de öncelikle kendim hatırlamak için kısa ve öz bir şekilde CentOS7 üzerinde kullanıcı oluşturma, grup oluşturma, home dizin oluşturma, kullanıcıyı gruba ekleme ve şifre belirleme gibi hususlara örnek vereceğim. Kullanıcı ve home dizin oluşturma Önce kullanıcı ve home dizin oluşturalım: -m argümanı kullanıcı […]
Hadoop HDFS Nedir?

HDFS Hadoop projesinin en temelinde bulunan çok büyük hacimli verileri depolamak için tasarlanmış java tabanlı dağıtık bir dosya sistemidir. Hatalara karşı dayanıklıdır. Ölçeklenebilir. Düşük maliyetlidir. Büyük veriler için idealdir. HDFS Öne Çıkan Özellikler Bir kez yaz defalarca oku Özel bir donanım istemez, marka bağımsız Anında cevap beklenen uygulamalar için ideal değil Büyük verileri makul bir […]
Keras Derin Öğrenme Kütüphanesi ile Sınıflandırma: Iris Veri Seti Üzerinde Uygulama

Merhaba. Bu yazımızda son yıllarda çok popüler bir konu olan derin öğrenme ile basit bir sınıflandırma uygulaması yapacağız. Derin öğrenmenin temelinde yapay sinir ağları bulunmaktadır. Uygulamamızda veri seti olarak Iris veri setini, sınıflandırıcı olarak da yapay sinir ağını kullanacağız. Programlama dilimiz Python, temel kütüphenelerimiz scikit-learn, tensorflow, keras olacaktır. Iris veri setini bu yazı ile daha yakından […]
Çoklu Doğrusallık Sorunu Çözümünde VIF

Çoklu regresyon analizinde bağımsız niteliklerin bağımlı nitelik üzerindeki etkisi incelenir. Bazı bağımsız nitelikler birbirleriyle yüksek doğrusal korelasyona sahip olduğundan bağımlı değişken üzerindeki etkisi dağılır. Modelin sadeliği va anlaşılırlığı adına bağımlı değişkene en çok etki eden az sayıda değişken ile model oluşturmak arzu edilen bir durumdur. Küçük veri analizinde kullanılan SPSS gibi paket programlar çoklu bağlantı tesptini yapabilmektedir. […]
Anormallik Analizinde Kullanılan Yöntemler (Outlier Analysis Methods)

Outlier Analysis Methods’e girmeden önce kısa bir alıntı ile giriş yapalım. Siyah kuğular görülmeden evvel yeryüzündeki tüm kuğular beyaz sanılırmış. Bir gün siyah kuğu ile karşılaşan insanoğlu, onu sıra dışı ilan etmiş. Nicholas Taleb, Black Swan isimli kitabının girişinde bu konuya temas eder. Kitabın ana fikri şu: Aslında insanlar önemli kararları ve köklü düzen değişikliklerini […]
Apache Spark ML Kütüphanesi: Pipelines Örnek Uygulama

1. Giriş Merhabalar. Bildiğimiz gibi Spark, büyük veri dünyasının en popüler analitik motoru. Özellikle durağan büyük boyutlu veriler (persistent data) üzerinde hızlı bir şekilde makine öğrenmesi algoritmalarını çalıştırabilmesi Spark’ı farklı kılan özelliklerin başında geliyor. Arkadaşımız o kadar yetenekli ki sadece durağan verileri işlemiyor, aynı zamanda akan verileri de işleyebiliyor. Spark’ın makine öğrenmesi için bir kütüphanesi var. […]
Ensemble Yöntemler (Topluluk Öğrenmesi): Basit Teorik Anlatım ve Python Uygulama

1. Enseble Yöntemler Nedir? Bir Benzetme Sınıflandırma algoritmaları ile bir nesnenin hangi sınıfa dahil olacağını tahmin etmeye çalışırız. Birçok sınıflandırma yöntemi arasından probleme uygun olanı seçer, gerekli optimizasyonları yapar ve yüksek doğruluk oranlarını yakalamaya çalışırız. Peki bu işi 3-5 tane sınıflandırıcı ile yapsak veya aynı sınıflandırıcıyı aynı eğitim setinin farklı alt kümeleri ile eğitsek ve her birine […]
BG-12: Lokal Repository Kurulumu

Lokal respository kurum ve şirketlerin sıklıkla kullandığı bir uygulamadır. Lokal repository sayesinde her bir kullanıcı bilgisayarı veya sunucular genel internetten karşıladığı paket yükleme, güncelleme vb. işlemleri kurum/şirket lokal repository’sinden karşılar. Böylelikle yüzlerce binlerce bilgisayarın internetten tek tek yapacağı işi, bir sunucu bir kere yapar. Böylelikle geniş alan ağ trafiği azaltılmış olur. Lokalz repository kullanımına zorunlu […]
BG-9: Sanal Makineleri Kopyalama ve Parolasız SSH Bağlantısı

Baz şablon sunucu hazırlandıktan sonra bunu cluster planındaki sunucu sayısı kadar çoğaltıyoruz. Benim planımda 6 sunucu kurmak vardı, o yüzden 6 tane kopyaladım. Bu yazıda kopyalanmış sunucuların içine tek tek girip ip ve hostname değişikliği yapacağız. Tek tek yapmak ip çakışmasını önlemek için önemlidir. Sonrasında sunucular arasında passwordless-ssh kuracağız. Passwordless-ssh Ambari ile yapılan kurulumlarda büyük […]
BG6: VMWare Tools Yükleme

Sunucuları kopyalamadan önce sanal makinemize VMware Tools yüklemekte fayda var. Aslında bu diziden bağımsız bir yazı da olabilir. Buradaki salt amaç: Linux CentOS sanal makineye VMware Tools kurmaktır. Kuruluma geçmeden önce vmware tools için bazı ön gereksinimler var onları yum ile kurmalısınız: perl ve gcc. WM menüsünden Install VMware Tools’a basıyoruz. Karşımıza aşağıdaki ikaz çıkıyor. […]
BG1: Kişisel Bilgisayara Büyük Veri Kurulumu Yapmak

1. Giriş Big data bildiğimiz gibi son zamanlarda üzerinde çok konuşulan bir kavram. Yapılan araştırmalar ve sektörel gelişmeler big data kullanımının artan bir trendle devam edeceğini gösteriyor. Artık big data ile ilgili bilgi ve yeteneklerimizi; big data nedir? iyi bir şey midir? çalışma mantığı nedir? vb. ötesine taşımalıyız. Yani elimizi hamura sokmalıyız, pardon kodlara dokunmalıyız. Ben […]