Anasayfa / Genel bir bakış / Windows 10 için Apache Spark Kurulumu

Windows 10 için Apache Spark Kurulumu

Büyük veri dünyasında Hadoop’tan sonra adını en çok duyuran proje diyebiliriz. Hadoop ise bildiğimiz gibi en yaygın büyük veri ekosistemini oluşturan açık kaynaklı bir proje. Ancak Hadoop’un MapR, Hortonworks ve Cloudera gibi ticari sürümleri de mevcut. Örneğin ben dizüstü bilgisayarımda 4 sanal sunucudan oluşturduğum Cloudera’nın ücretsiz sürümü olan Hadoop cluster kullanıyorum. Spark Hadoop’a bir alternatif değil. İkisi birbirini dışlamıyor (not mutually exclusive). Sadece Hadoop’un bazı mahsurlarını düzelterek 100 kata kadar varan bir hız artışını sağlıyor. Bunun da temelinde bellek kullanması yatıyor. Bu yazımızın amacı Spark’ı ayrıntılı olarak anlatmak değil elbette. Bu nedenle bu konuyu başka kaynaklara havale ederek asıl yazımızın konusuna geçiyorum. Yazımızın amacı Windows  ortamında Spark’ın kurulumu anlatmak. Böylelikle veri bilimlerine ve Spark’a yeni başlayanlar basit bir geliştirme ortamı kurabilirler. Spark’ın dört adet çalışma modu var:

  • Local
  • Standalone
  • Hadoop YARN
  • Apache Mesos

Bizim kuracağımız local mod olacak.

  1. Öncelikle Spark’ı indiriyoruz. Bunun için Google’da Spark Download diye aratmanız yeterli.

2. İndirdiğimiz sıkıştırılmış dosyayı açıyoruz. C diskinde spark isimli bir klasör oluşturuyoruz ve indirip açtığımız spark-2.1.0-bin-hadoop2.6 klasörü içeriğini C:\spark dizini içine kopyalıyoruz.

Sonuç yukarıdaki resimde görünmektedir.

3. conf dosyası içinde log4j.properties.template dosyasını text editör (notepad, notepad++ vb.) ile açıyoruz. log4j.rootCategory=INFO‘yu log4j.rootCategory=WARN yapıyoruz. Dosyayı kaydedip çıkıyoruz. Çıktıktan sonra dosyanın .template uzantısını kaldırarak log4j.properties şekline getiriyoruz.

4. Windows’un ortam değişkenlerine gelip (Denetim Masası ->Sistem ve Güvenlik -> Sistem -> Gelişmiş Sistem Ayarları -> Ortam Değişkenleri) yeni değişken oluşturuyoruz. Değişken adımız: SPARK_HOME, değeri:C:\spark olarak tanımlıyoruz.

5. Aynı yerde Path’i seçip düzenle diyoruz ve Path’e %SPARK_HOME%\bin ekliyoruz.

6. https://github.com/steveloughran/winutils/blob/master/hadoop-2.6.0/bin/winutils.exe adresinden winutils.exe indiriyoruz. C diskinde winutils klasörü onun içinde de bin klasörü oluşturup winutils.exe’yi bin klasörü içine kopyalıyoruz.

 7. 4’üncü adımı HADOOP_HOME, C:\winutils için de yapıyoruz.

8. Komut satırını (cmd) açıp spark-shell komutunu çalıştırıyoruz.

9. Eğer spark’ı python dilinde kullanmak istersek :q deyip scala’dan çıkıyoruz ve pyspark komutunu çalıştırarak Spark’ı python dilini kullanacak şekilde başlatıyoruz.

Başka bir yazıda görüşmek dileğiyle, veriyle kalın…

Hakkında Erkan ŞİRİN

2014'ten beri hem akademik hem de sektörde pratik anlamda büyük veri ve veri bilimi ile ilgili çalışmalar yürütmektedir. Halihazırda İmpektra Bilişim A.Ş.'de büyük veri yöneticisi olarak çalışmakta olup aynı zamanda Gazi Üniversitesi Yönetim Bilişim Sistemleri doktora öğrencisidir. Büyük veri ve veri bilimi ile ilgili birçok kurum ve şirkete eğitimler vermekte ve projeler icra etmektedir. Çalışma alanları: büyük veri platformlarının kurulum ve yönetimi, büyük veri üzerinde makine öğrenmesi, olağan dışılık tespiti, sahtecilik tespiti, veri hazırlama sürecidir.

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Parametrik Testlerden T Testi ile Merhaba

Giriş Veri Bilimi Okulu okuyucularına merhaba! Uzun süredir Veri Bilimi Okulu’nun teknik alt yapısı görevlerimin …

10 yorumlar

  1. Hocam Ortam Değişkenlerine kaydediyoruz demişssiniz ama Sistem Değişkenleri arasına eklenmesi gerekiyor bu path lerin. Sanırım bu kısımda bir yanlışlık olmuş. İyi çalışmalar, emeğinize sağlık.

  2. Melih Sontürk

    Hocam merhaba. Spark üzerine proje çıkarmak için bildiğiniz bir eğitim vs kaynak var mı?
    Teşekkürler

    • erkansirin@datascience.istanbul

      Merhaba Melih Bey. Maalesef bu konuda Türkçe olarak hiç bir kaynak mevcut değil. İngilizceniz var ise YouTube da bazı videolar bulabilirsiniz. Kitap olarak da Learning Spark O’Reilly kitabını tavsiye edebilirim. İyi çalışmalar…

  3. Hocam Python 3.6 da hata alıyorum Spark 2.2.0 sürümü için.Python 2.7 mi kullanmalıyım ?

    • Erkan ŞİRİN

      Merhaba Oğuz Bey. Ben yazıyı hazırladığımda Windows bilgisayarımda Spark 2.1.0 sürümü Python 3.4.3 ile çalışıyordu. Şimdi denedim hala çalışıyor. Spark 2.2.0 sürümünü kullanmak için Python 2.7’ye ihtiyacınız olduğunu düşünmüyorum. Aldığınız hata ile ilgili Google’dan arama yaparsanız benzer hatayı alanların çözümlerine ulaşabileceğinizi umuyorum. Ancak yine de sonuca ulaşamaz iseniz, hata bilgisini paylaşın, yardım etmeye çalışırım. Kolay gelsin…

  4. mehmet çağatay

    scalaya giriş yapabiliyorum ancak python’da error veriyor.
    “ipython” is not recognized as an internal or external command,operable program or batch file

  5. mehmet çağatay

    python error veriyo derken “pyspark” error veriyor. Python komutu calısıyor.
    yardımcı olursanız sevinirim
    saygılar

    • Erkan ŞİRİN

      Merhaba. Komut satırına pyspark yazdığınızda pyspark shell açılması gerekir. Eğer Notebook kullanıyorsanız komut satırından gerekli ortam değişkenlerini girdikten sonra pyspark komutu ile shell’i başlatmalısınız. Kolay gelsin…

  6. mehmet çağatay

    pyspark komutundan “ipython is not recognized as an internal or external command,operable program or batch file” hatasını alıyorum.
    Notebook kullanıp kullanmadığım hakkında bi fikrim yok nasıl anlayabilirim ?

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir