BG1: Kişisel Bilgisayara Büyük Veri Kurulumu Yapmak

1. Giriş

Big data bildiğimiz gibi son zamanlarda üzerinde çok konuşulan bir kavram. Yapılan araştırmalar ve sektörel gelişmeler big data kullanımının artan bir trendle devam edeceğini gösteriyor. Artık big data ile ilgili bilgi ve yeteneklerimizi; big data nedir? iyi bir şey midir? çalışma mantığı nedir? vb. ötesine taşımalıyız. Yani elimizi hamura sokmalıyız, pardon kodlara dokunmalıyız. Ben bu yazı dizisinde sizlerle kendi dizüstü bilgisayarıma kurduğum çok sunuculu Hadoop cluster ile ilgili aldığım notları paylaşacağım. Her şey yolunda giderse 6 sunuculu Hadoop Big Data Cluster kurmuş olacağız. Bunu yapmak niye bu kadar önemli?

  1. Öncelikle gerçek bir big data deneyimi yaşayacaksınız.
  2. Bu ortamı kurduğunuzda ortam üzerinde rahat rahat çalışabileceksiniz.
  3. Hiç kimseye bağımlı olmadan, hatta internet bağlantınız bile olmadan big data laboratuvarınız hep yanınızda olacak.
  4. Ne zaman müsait olursanız açıp çalışabileceksiniz. Şayet bu bir dizüstü bilgisayar ise her türlü fırsatı değerlendirebilirsiniz.
  5. Eğitici, eğitim ortamı ve zamanla ilgili kısıtlamalarınızı kaldırmış olacaksınız.
  6. Kendi bilgisayarınıza yaptığınız yatırım dışında (ki onu da kendi mülkünüze yapıyorsunuz) hiçbir masrafınız olmayacak. Burada öğreneceklerinizin çok az bir kısmı için gereken eğitim, piyasada bin dolarlarla ifade ediliyor. Bence bu yatırımı güçlü bir bilgisayara yapmak daha akıllıca.

Dünya açık kaynak dünyası, ihtiyacınız olan her şey bir yerlerde var, size gidip onu bulup, öğrenmek ve kullanmak düşüyor. Tek ihtiyacınız bir bigisayar, internet bağlantısı ve bir fincan kahve 🙂

2. Gereksinimler:

Bu yazı dizisini takip edebilmek için güçlü bir bilgisayara ihtiyaç var. Günümüzde i5 işlemcili ve 8 GB ana bellekli bilgisayarlar yaygın. Bu iş için en azından RAM’i 16 GB, mümkünse 32 GB’a çıkarmanız sizi çok rahatlatacaktır. Daha fazla sanal makineyi aynı anda çalıştırmak için işlemcinin i7 olması daha iyi. Ben bu iş için 16 GB RAM’li bilgisayarımı 32 GB’ye çıkardım ve 512 GB ilave SSD disk taktım. Bence kişisel gelişiminiz için böyle küçük yatırımlar yapmanız gerekir. Hatta sadece donanım değil yazılım lisansı, eğitim videosu, kitap vb. yatırımlardan kaçınmayın. Bunlara vereceğiniz para, piyasada big data adı altında alacağınız 3-5 günlük eğitim için ödeyeceğiniz paranın yanında komik bile kalabilir. Ben aşağıda kendi kullandığım bilgisayar ve yazılımlara ait bilgileri paylaşıyorum.

İşlemci: Intel i7 (i5’de olabilir ancak i7, hatta i9 veya AMD Ryzen olsa daha iyi)

Ana Bellek (RAM): 32 GB (16 GB olabilir)

Harddisk: 512 GB SSD (Mekanik disk de olur ancak çok yavaş çalışırsınız)

İşletim Sistemi: Windows 10 (Diğer işletim sistemleri de olur)

Gerekli Yazılımlar:

  • Sanallaştırma Yazılımı (Örnekler vmware workstation üzerinden verilmiştir. Virtual Box veya Hyper-V de kullanılabilir)
  • Ana makineden sanal clustera bağlanmak ve linux komutları kullanmak için ana makine üzerine Cygwin64 veya Putty terminal.

3. Varsayımlar:

Bu yazı dizisini takip edecekler için bazı varsayımlarım var: Yukarıdaki donanım ve yazılımlara sahipler. Sanallaştırma yazılımını kullanmayı biliyorlar. Temel linux bilgisine ve komutlarını kullanma becerisine sahipler. HDFS, MapReduce, NameNode, DataNode, YARN vb. Hadoop ve big data hakkında temel kavramlara hakimler.

Bu yazı dizisinde Vmware gibi sanallaştırma yazılımı, Cygwin64 gibi Windows-toLinux terminal programın ana makineye kurulumu anlatılmayacaktır. Yazının başlangıcında bu yazılımların kurulu olduğu varsayılmaktadır.

4. Amaç:

Mevcut kaynaklarla (kişisel bilgisayar ve internek bağlantısı) ilave masraf yapmaksızın big data konusunda uygulamalı olarak kendi kendini eğitebilir hale getirmek. Hortonworks, Cloudera gibi önde gelen şirketlerin sertifikasyon sınavlarına hazırlanmak. Big data engineer adayları için temel yetenekleri geliştirmek ve bu alanda iş bulabilme olasılıklarını arttırmak.

5. Sonuç:

Yazı dizisini başarıyla tamamladığınızda kişisel bilgisayarımızda çalışan bir Hadoop cluster olacaktır. Cluster kurulumunda Hortonworks’ün HDP-2.6.2.0 versiyonunu kullanacağız ve Ambari ile otomatik kurulum yapacağız. İşin sonunda karşımızda aşağıdaki ekranı göreceğiz.

6. Seriyi Oluşturan Yazılar:

1. Genel Bilgiler
2. Cluster Ağ ve IP Planlaması
3. VMware ile Sanal Makine Yaratmak
4. Baz Şablon Sunucuya CentOS7 İşletim Sistemi Yüklemek
5. Baz Şablon Sunucuya Gerekli Yazılımları Yüklemek
6. VMware Tools Yükleme
7. Baz Şablon Sunucu Konfigürasyonu
8. Uzman Seviyesi Linux Kernel Ayarları
9. Sanal Makineleri Kopyalama ve Parolasız SSH Bağlantısı
10. Cluster Planı
11. Edge Server Hazırlama(httpd ve pssh)
12. Lokal Repository Kurulumu
13. Ambari Kurulumu
14. Ambari ile Cluster Kurulumu

Veriyle kalın…

Yazar Hakkında
Toplam 174 yazı
Erkan ŞİRİN
Erkan ŞİRİN
10 yılı aşkın süredir yurtiçi ve yurtdışında sektörde büyük veri mühendisliği, platform yönetimi ve makine öğrenmesi ile ilgili çalışmalar yürütmekte ve aynı zamanda birçok kurum ve şirkete danışmanlık ve eğitimler vermektedir. Çalışma alanları: Data ve MLOps platformları, gerçek zamanlı veri işleme, değişen veriyi yakalama (CDC) ve Lakehouse.
Yorumlar (Yorum yapılmamış)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara