Windows 10 Spark-2 Kurulumu

Apache Spark büyük veri analizinin en önde gelen platformu olarak popülerliğini ve önemini gittikçe arttırıyor. Bir çok insan Spark’ın bu değerini farkettiğinden Spark öğrenmeye başlıyor. Birçok kullanıcının bilgisayarında Windows işletim sistemi kurulu. Spark’ı Windows işletim sistemi üzerine de kurarak kullanabiliriz. Ancak bu hususta çok detaylı bir kılavuz olmadığından bir çok Spark öğrencisi Windows üzerinde Spark kurmayı başaramıyor. Bu açığı gidermek amacıyla burada tüm detaylarıyla Windows 10 üzerine Spark kurulumunu anlatacağız.

1. Java Kontrol/İndirme/Yükleme

Bilgisayarda java olup olmadığını ve varsa versiyonunu kontrol etme:

  1. Windows+R tuşuna basınız. Karşınıza çalıştır gelecektir.
  2. Çalıştır kutusu içine cmd yazıp enter tuşuna basınız.
  3. Komut satırına java -version komutunu yazınız. Eğer java yüklü ise aşağıdakine benzer bir sonuç göreceksiniz.
  4. Eğer java yüklü değilse bir sonraki adıma geçiniz.

Java Kurulumu

  1. Google’da “java development kit 8” araması yapınız veya bu bağlantıdan Oracle’ın ilgili sayfasına ulaşınız.
  2. Lisans anlaşmasını kabul ediniz.
  3. En alttaki “Windows x64 207.27 MB jdk-8u171-windows-x64.exe” olan bağlantıyı tıklayarak java kurulum dosyalarını indiriniz.
  4. İndirdiğiniz dosyaları kurunuz.
  5. Kurulum sonrası java versiyonunu kontrol edelim.
  6. Birinci maddedeki gibi Windows+R ile çalıştır ekranına gelip oradan cmd ile komut satırını çalıştıralım. Üçüncü maddedeki java -version komutunu çalıştırdığımızda aşağıdaki ekran görüntüsü gelmelidir.

2. Spark’ı İndirme ve Dosyalarını Açma

  1. Google’da Apache Spark sözcüklerini aratınız veya buradan spark download sayfasına ulaşınız.
  2. spark-2.3.1-bin-hadoop2.7.tgz linkine tıklayarak  Spark’ı indiriniz.
  3. spark-2.3.1-bin-hadoop2.7.tgz dosyasına sağ tıklayarak 7-zip ile “burada çıkart” diyerek açınız.
  4. Aynı şekilde spark-2.3.1-bin-hadoop2.7.tar dosyasını bulunduğunuz dizine açınız. En son spark-2.3.1-bin-hadoop2.7 klasörüne ulaşacaksınız.
  5. C diskinde spark isminde bir klasör yaratınız. spark-2.3.1-bin-hadoop2.7 içindeki tüm dosyaları kesip yeni yarattığınız spark klasörü içine yapıştırınız. Sonuç aşağıdaki resimde görüldüğü gibi olmalıdır.

3. Winutils.exe İndirme ve Yerleştirme

  1. Buradan winutils.exe dosyasını indiriniz.
  2. C dizininde winutils adında bir klasör oluşturunuz. İçine girerek bin isminde bir klasör daha oluşturunuz.
  3. İndirdiğiniz winutils.exe dosyasını bin klasörü içine taşıyınız. Son hali aşağıdaki resimde görülmektedir.

4. Ortam Değişkenleri

Yeni yüklemelerden sonra JAVA_HOME, SPARK_HOME ve HADOOP_HOME değerlerini ortam değişkenlerine ekleyelim.

Ortam değişkenlerine aşağıdaki şekillerde görüldüğü şekilde ulaşınız.

=======================

=======================

=======================

Yukarıdaki ortam değişkenleri penceresine ulaştıktan sonra “Yeni” butonuna basarak aşağıdaki satırları ekliyoruz. Kendi sisteminizde ufak tefek farlılıklar olabilir onları siz kendinize uyarlarsınız.

Home değişkenlerini ekledikten sonra aşağıdaki resimde bulunan Path satırını seçip (1) Düzenle butonuna basınız (2) ve Yeni (3) butonuna basınız. Son iki satırı ekleyiniz.

Açılan pencereleri Tamam diyerek kapatarak Windows’u yeniden başlatınız.

5. Spark-shell

Windows başladıktan sonra Windows+R tuşuyla çalıştırı, ardından cmd ile komut satırını başlatınız. Komut satırına spark-shell yazarak Spark’ı başlatınız.

Yukarıdaki sonucu görmüşseniz Spark kabuğunu Scala modunda çalıştırdınız demektir. Çıkmak için :q tuşlayınız. Spark’ı Python (PySpark) ile kullanmak için komut satırına pyspark yazınız.

Yukarıdaki ekranı görmüşseniz tebrikler Spark’ı Python (PySpark) ile kullanınız. Çıkmak için exit() yazınız.

6. Muhtemel Hatalar ve Çözümü

6.1. Could not locate executable winutils.exe

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

Intellij üzerinde aşağıdaki gibi Environment variables içine HADOOP_HOME ekleyiniz

Spark’ı güle güle kullanınız.

Başka bir yazıda görüşmek üzere, hoşçakalın..

Yazar Hakkında
Toplam 179 yazı
Erkan ŞİRİN
Erkan ŞİRİN
10 yılı aşkın süredir yurtiçi ve yurtdışında sektörde büyük veri mühendisliği, platform yönetimi ve makine öğrenmesi ile ilgili çalışmalar yürütmekte ve aynı zamanda birçok kurum ve şirkete danışmanlık ve eğitimler vermektedir. Çalışma alanları: Data ve MLOps platformları, gerçek zamanlı veri işleme, değişen veriyi yakalama (CDC) ve Lakehouse.
Yorumlar (Yorum yapılmamış)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara