Anasayfa / Spark

Spark

Nisan, 2019

  • 21 Nisan

    Apache Spark ile Parquet Formatında Veri Okuma (Python)

    Merhaba bu yazımızda parquet uzantılı bir dosyanın pyspark ile nasıl okunacağını göreceğiz. Bu yazıyı yazmamızın sebebi pyspark ile parquet dosyası okumanın, standart dataframe API’si ile csv gibi yaygın formatları okumaktan farklılık göstermesidir. Bu çalışma esnasında kullandığım ortamlar: İşletim sistemi: Windows …

  • 21 Nisan

    Apache Spark ile Parquet Formatında Veri Yazma ve Okuma (Scala)

    Merhaba. Bu yazımızda Apache Spark ile [crayon-5d37351ca1906817330144-i/] uzantılı bir veri dosyasını okuyup [crayon-5d37351ca190e504622010-i/] uzantılı olarak diske kaydedeceğiz ve kaydettiğimiz parquet dosyasını tekrar Spark ile okuyacağız. Spark, birçok formatta veriyi okuyup yazabiliyor. Parquet, csv dosyalarına göre daha az yer kapladığı gibi okuma performansı da daha …

  • 14 Nisan

    Spark Dataframe İçindeki Kategorik Nitelikleri Otomatik Olarak Seçmek

    Merhaba. Spark dataframe ile çalışırken zaman zaman içindeki kategorik değişkenleri seçeriz. Özellikle makine öğrenmesi öncesinde veri hazırlığı aşamasında bunu mutlaka yapmalıyız. Çünkü kategorik nitelikler veri hazırlığı sürecinde stringIndexer, OneHotEncoder gibi daha farklı aşamalardan geçer. Bu yazımızda Spark dataframe içindeki nitelikleri kategorik …

  • 14 Nisan

    Apache Spark DataFrame İçinden Değerlere Ulaşmak

    Merhabalar. Bu yazımızda Apache Spark Dataframe içindeki tekil bir değeri basit veri türünde (Int, Double vb.) nasıl elde edeceğimizi bir örnek ile göreceğiz. Benim yaptığım çalışma esnasında kullandığım ortam bilgileri: İşletim sistemi: Windows 10 64 bit Pro IDE: Intellij IDEA …

Şubat, 2019

  • 6 Şubat

    Apache Spark Eğitimi

    Verinin baş döndürücü hızla çoğaldığı günümüzde onu en iyi şekilde kullanmak ve yeni çağın sunduğu bu fırsattan maksimum derecede faydalanmak için kullanılabilecek en iyi araçlardan birisi şüphesiz Apache Spark’tır. Büyük veri dünyasının öncü topluluğu Apache tarafından geliştirilen ve en güçlü …

Ağustos, 2018

  • 15 Ağustos

    Apache Spark ile Artık İdeal Küme Sayısını Bulmak Daha Kolay

    Bildiğimiz gibi makine öğrenmesinde öğrenme yöntemleri genel olarak denetimli (supervised) ve denetimsiz (unsupervised) şeklinde ikiye ayrılıyor. Denetimli yöntemlerde sınıflandırma ağırlık kazanırken denetimsiz yöntemlerde ise kümeleme öne çıkmaktadır. Sınıflandırmada veri içinde etiketlenmiş bir hedef değişken bulunurken kümelemede ise herhangi bir hedef  …

Haziran, 2018

  • 21 Haziran

    Windows 10 Spark-2 Kurulumu

    Apache Spark büyük veri analizinin en önde gelen platformu olarak popülerliğini ve önemini gittikçe arttırıyor. Bir çok insan Spark’ın bu değerini farkettiğinden Spark öğrenmeye başlıyor. Birçok kullanıcının bilgisayarında Windows işletim sistemi kurulu. Spark’ı Windows işletim sistemi üzerine de kurarak kullanabiliriz. …

Mayıs, 2018

  • 24 Mayıs

    Apache Spark 2.3.0 OneHotEncoderEstimator: Scala Örnek Uygulaması

    Apache Spark 2X’e geçtikten sonra dördüncü sürümünü genel kullanıma sundu. Son sürüm 2.3.0. Bu sürümle birlikte gelen bir çok yenilik arasında MLlib kütüphanesindeki OneHotEncoderEstimator da yer alıyor. Bu sınıf, makine öğrenmesinde veri hazırlığı aşamasında kategorik niteliklerin vektör haline getirilmesine katkıda bulunuyor. …

Ocak, 2018

  • 9 Ocak

    Çoklu Doğrusallık Sorunu Çözümünde VIF

    Çoklu regresyon analizinde bağımsız niteliklerin bağımlı nitelik üzerindeki etkisi incelenir. Bazı bağımsız nitelikler birbirleriyle yüksek doğrusal korelasyona sahip olduğundan bağımlı değişken üzerindeki etkisi dağılır. Modelin sadeliği va anlaşılırlığı adına bağımlı değişkene en çok etki eden az sayıda değişken ile model oluşturmak arzu …

  • 1 Ocak

    Apache Spark K-Ortalamalar Tekniği ile Bilgisayar Ağlarında Anormallik Tespiti Bölüm 2/3

    Merhabalar Apache Spark ve K-Ortalamalar tekniğini kullanarak bilgisayar ağlarında anormallik tespiti yazısına devam ediyoruz. İlk yazımız buradadır. İlk yazıda K-Ortalamalar tekniğine genel bir giriş yaptık, veriyi yükledik, veri keşfi ve temizlik yaptık. Bu yazımızda veri ön işlemesi ile devam edeceğiz. …