Anasayfa / Spark

Spark

IntelliJ IDEA ile Apache Spark Projesini Uzak YARN Cluster Üzerinde Çalıştırmak-1/2

1. Giriş Merhabalar. Uygulama geliştirirken geliştirme(dev), test ve canlı (prod) gibi farklı farklı ortamlar kullanırız. Farklı ortamlarda çalışırken bazı ayarlamalar yapmamız gerekir. Şayet hızlı bir şekilde uygulamayı çıkarayım, geliştirme, canlı vb. uğraşmayayım diyorsanız bu yazı size göre. Bu yazıda Windows …

Daha Fazlası >>

IntelliJ IDEA ile Apache Spark Projesini Uzak YARN Cluster Üzerinde Çalıştırmak-2/2

Merhaba. Yazı serimizin ikincisine devam ediyoruz. Bir önceki ilk yazımızda konuya giriş yapmıştık. Hatırlayalım, amacımız Spark uygulamasını Windows bilgisayarımızda kurulu IntelliJ ile uzak hadoop cluster üzerinde geliştirmekti. IntelliJ ile devam ediyoruz. 4. IntelliJ Spark Uygulaması: Maven Projesi Oluşturmak Şimdi uygulamamızı …

Daha Fazlası >>

Apache Spark ile Parquet Formatında Veri Yazma ve Okuma (Scala)

Merhaba. Bu yazımızda Apache Spark ile csv uzantılı bir veri dosyasını okuyup parquet uzantılı olarak diske kaydedeceğiz ve kaydettiğimiz parquet dosyasını tekrar Spark ile okuyacağız. Spark, birçok formatta veriyi okuyup yazabiliyor. Parquet, csv dosyalarına göre daha az yer kapladığı gibi okuma performansı da daha …

Daha Fazlası >>

Spark Dataframe İçindeki Kategorik Nitelikleri Otomatik Olarak Seçmek

Merhaba. Spark dataframe ile çalışırken zaman zaman içindeki kategorik değişkenleri seçeriz. Özellikle makine öğrenmesi öncesinde veri hazırlığı aşamasında bunu mutlaka yapmalıyız. Çünkü kategorik nitelikler veri hazırlığı sürecinde stringIndexer, OneHotEncoder gibi daha farklı aşamalardan geçer. Bu yazımızda Spark dataframe içindeki nitelikleri kategorik …

Daha Fazlası >>

Apache Spark Eğitimi

Verinin baş döndürücü hızla çoğaldığı günümüzde onu en iyi şekilde kullanmak ve yeni çağın sunduğu bu fırsattan maksimum derecede faydalanmak için kullanılabilecek en iyi araçlardan birisi şüphesiz Apache Spark’tır. Büyük veri dünyasının öncü topluluğu Apache tarafından geliştirilen ve en güçlü …

Daha Fazlası >>

Spark Dataframe&Dataset Operasyonları-2:

Merhaba, bu yazımızda veri ön hazırlığı aşamasında, veri yüklerken, Spark Dataframe oluştururken, dataframe şekillendirirken, onu dönüştürürken, dataframe üzerinde veri keşfi yaparken vb. işlemler için kullandığım spark yapısal API operasyonlarından faydalı bulduklarımı paylaşacağım. Görkemli ve haşmetli makine öğrenmesi, derin öğrenme ve …

Daha Fazlası >>

Apache Spark ile Artık İdeal Küme Sayısını Bulmak Daha Kolay

Bildiğimiz gibi makine öğrenmesinde öğrenme yöntemleri genel olarak denetimli (supervised) ve denetimsiz (unsupervised) şeklinde ikiye ayrılıyor. Denetimli yöntemlerde sınıflandırma ağırlık kazanırken denetimsiz yöntemlerde ise kümeleme öne çıkmaktadır. Sınıflandırmada veri içinde etiketlenmiş bir hedef değişken bulunurken kümelemede ise herhangi bir hedef  …

Daha Fazlası >>

Windows 10 Spark-2 Kurulumu

Apache Spark büyük veri analizinin en önde gelen platformu olarak popülerliğini ve önemini gittikçe arttırıyor. Bir çok insan Spark’ın bu değerini farkettiğinden Spark öğrenmeye başlıyor. Birçok kullanıcının bilgisayarında Windows işletim sistemi kurulu. Spark’ı Windows işletim sistemi üzerine de kurarak kullanabiliriz. …

Daha Fazlası >>