Anasayfa / Büyük Veri / Hadoop-Spark Big Data Developer Eğitimi

Hadoop-Spark Big Data Developer Eğitimi

HADOOP VE SPARK DEVELOPER EĞİTİMİ (5 GÜN)

Bu uygulamalı eğitim kursu, Hadoop ve Apache Spark 2 ile yüksek performanslı dağıtık uygulamalar geliştirmek için katılımcıların temel kavramları anlamasını ve uygulama seviyesinde yetenek kazanmalarını sağlar. Katılımcılar, Hadoop’un temel kavramlarını ve çalışma mantığını öğrenir, Hadoop ile farklı kaynaklardan veri alışverişi yapabilir, yapılandırılmış verileri sorgulamak için Spark SQL’i ve akan veri üzerinde gerçek zamanlı veri işleme için Spark Streaming’i nasıl kullanacaklarını öğrenirler. Kurs, dağıtılmış bir dosya sisteminde depolanan büyük veri setleriyle nasıl çalışılacağını ve Hadoop kümesinde (cluster) Spark uygulamalarının nasıl yürütüleceğini kapsar. Bu kursu aldıktan sonra, katılımcılar çok çeşitli kullanım durumlarına, mimarilere ve endüstrilere göre; daha hızlı ve daha iyi kararlar alınmasını sağlayacak büyük veri üzerinde etkileşimli analizler uygulamak için gerçek dünyadaki zorluklarla yüzleşmeye ve uygulamalar geliştirmeye hazır olurlar.

Açık sınıfımız yoktur. Eğitim, kurum ve şirketlere yöneliktir. Ortalama grup büyüklüğü 10-12 civarındadır.

Daha fazla bilgi ve eğitim talepleri için; veribilimiokulu@gmail.com e-posta adresinden veya +90 506 543 2731 numaralı telefondan bize ulaşabilirsiniz.

 

EĞİTİM PROGRAMI

  1. Büyük veri teorisi
    • Büyük veri ve ortaya çıkış sebepleri
    • Büyük veri kaynakları
    • Büyük veri ile başa çıkmanın zorlukları
    • Büyük veri kullanım alanları
    • Büyük verinin karakteristikleri
    • Veri artış tahmini ve kritik veri trendi
    • Büyük veri işlemede kullanılan donanımları anlama
    • Birçok bilgisayarı birlikte kullanmanın zorlukları
    • Büyük veriyi doğuran sebepler ve onu işlemeyi kolaylaştıran gelişmeler
    • Büyük veri tanımı
    • Büyük veri ve büyük veri yeteneklerine sahip olmanın önemi
  2. Hadoop genel tanıtımı
    • Hadoop temel özellikleri
    • Hadoop ve klasik sistem mimarisi karşılaştırma
    • Hadoop’un hataya karşı dayanıklılığı (fault tolerance) nasıl oluyor?
    • Hadoop nasıl dağıtık işleme yapar?
    • Hadoop ölçekleme (scaling)
    • Hadoop Ekosistemini oluşturan bileşenlerin özet tanıtımı
  3. Hadoop Distributed File System (HDFS) Teorisi
    • HDFS nedir? HDFS öne çıkan özellikler
    • HDFS öne çıkan özellikler
    • Mekanik disk ve HDFS blokları
    • HDFS nasıl çalışır animasyon
    • NameNode ve DataNode kavramları
    • HDFS’den veri okuma animasyon
    • HDFS’e veri yazma
    • HDFS hatalara karşı nasıl ayakta kalır? (Fault tolerance)
    • HDFS Federation nedir?
    • HDFS High Availability nedir?
    • HDFS’e hangi yöntemlerle erişiriz?
  4. HDFS Uygulaması
    • Temel linux komutları: dizin değiştirme, bulunduğu dizini yazdırma, kullanıcıları listeleme
    • Home dizinleri tanıma: Linux home dizini ve hdfs home dizini karşılaştırma
    • Linux ve Hadoop’da superuser kavramı
    • Ambari FilesView arayüzünden kişisel bilgisayardaki bir veriyi Hadoop’a yükleme
    • Linux ve Hadoop dosya/dizin erişim yetkilerini düzenleme, dosya sahipliğini değiştirme
    • Hadoop hdfs’ten bir dosyayı komut ile silme
    • Hadoop hdfs komutları ile linux dosya sisteminden hdfs’e veri aktarma
  5. Hadoop Sunucu Kümesinde (Cluster) Dağıtık Veri İşleme
    • YARN nedir, ne işe yarar?
    • Hadoop-1 ve Hadoop-2, YARN Hadoop’a neler kazandırdı?
    • YARN üzerinde çalışabilen çatılar (Frameworks)
    • ResourceManager NodeManager ve ApplicationMaster nedir?
    • Animasyon ile bir uygulamanın örnek YARN yolculuğu gösterimi
    • Capacity Scheduler ile kaynak tahsisi nasıl yapılır?
    • 7. YARN Kuyruk mekanizması nasıl çalışır? Örnek bir YARN kuyruğu
    • Kullanıcı ve gruplar YARN kuyrupunda nasıl sıraya girer?
    • Kim ne kadar, ne zaman kaynak alabilir?
    • YARN uygulamaları (Örnek kuyruk, uygulama takibi, uygulama sonlandırma, YARN web ara yüzü vb.)
  6. MapReduce ve Apache Tez Teori
    • Kuruyemişçi örneği ile MapReduce çalışma mantığını kavrama
  7. Apache Hive ve Hive uygulamaları
    • Hive’a komut satırından erişim
    • Ambari HiveView ile Hive kullanımı
    • Mysql veritabanına bağlanıp Hive metadata şemasını inceleme
    • Hive external table yaratma
    • Örnek HiveQL sorguları
  8. Büyük Veri Sorgulama Motorları
    • Presto
    • Drill
  9. Apache Zeppelin
  10. Apache Sqoop
  11. Apache Kafka
  12. Apache NiFi
  13. Güvenlik ve Apache Ranger
  14. Büyük Veri Tabanları
    • CAP Teoremi
    • Apache HBase Teorisi
    • Apache HBase Uygulama
  15. Apache Spark Giriş
    • Apache Spark Genel Teorik Anlatım
    • Spark-shell Kullanımı
    • Spark-shell ile Veri Okuma
    • Spark-shell ile Dataframe Oluşturma
  16. Apache Spark Dataframe API
    • Giriş
    • Dataframe ile Veri Analizi
    • GroupBy ve Aggregation Fonksiyonları Kullanma
    • Dataframe Join
    • Dataframe’i Diske Yazma
  17. Apache Spark RDD API
    • RDD Giriş
    • RDD Yaratma
    • Temel RDD Operasyonları
  18. RDD Transformasyon Operasyonları
    • Kullanıcı Tanımlı Fonksiyonları RDD Transformasyonunda Kullanmak
    • Action
    • RDD’yi Dataframe’e Dönüştürmek
  19. Pair-RDD ile Çalışmak
    • Pair-RDD Giriş
    • Pair-RDD Operasyonları ile Veri Analizi
  20. Apache Spark SQL
    • Spark SQL ile Veri Setleri Üzerinde SQL Sorguları Çalıştırma
    • Spark SQL ile Benzer Veri Sorgulama Motorlarını karşılaştırma
  21. Scala ve Dataset
    • Dataset ve Dataframe
    • Dataset Oluşturmak
    • Dataset Yükleme ve Saklama
    • Temel Dataset Operasyonları
  22. Apache Spark uygulaması yazmak, Ayarlamak ve Çalıştırmak
    • Spark Uygulaması yazmak
    • Spark Uygulamasını Derlemek
    • Spark Uygulaması Deployment Modları
    • Spark Kullanıcı Web Arayüzü
    • Uygulama Özelliklerini Ayarlamak
  23. Apache Spark ile Dağıtık Veri İşleme
    • Sunucu Kümeleri (Cluster) Üzerinde Apache Spark Çalıştırmak
    • RDD Partitions
    • Application, Job, Stage ve Task Kavramları
    • Spark Execution Planı
  24. Veri Dayanıklılığı (Cache ve Persistence)
    • Dataframe ve Dataset Persistence
    • Persistence Seviyeleri
    • RDD Persistence
  25. Apache Spark Streaming: Eski API DStreams
    • Streaming Genel Giriş
    • DStream Genel Kavramlar
    • Temel DStream Operasyonları
    • Örnek Uygulama
  26. Apache Spark Streaming: Yeni API Structured Streaming
    • Structured Streaming Giriş
    • Temel Operasyonlar
    • Örnek Uygulama
  27. Apache Spark Streaming: Veri Kaynakları
    • Giriş
    • Apache Kafka’dan Veri Okumak
    • Twitter Verilerini Okumak
    • Kafka’dan Okunan Verileri Gruplandırmak
    • Twitter En Popüler Hashtag’leri Ekrana yazdırmak

 

Ön Gereksinimler:

  1. Uygulamalar Hortonwork HDP Sandbox 2.6.X ile yapılır.
  2. Kursiyerlerin en az 16 GB RAM ve sanallaştırma desteği bulunan işlemcili bilgisayarı olması gereklidir. Eş değer donanıma sahip bulut sunucu (Örn: AWS) da olur.
  3. HDP Sandbox 2.6.X gibi büyük boyutlu dosyaların önceden bilgisayarlara indirilmiş olmasında fayda vardır. Aksi halde kurs esnasında indirme işlemi çok zaman alacaktır. Bulut sunucusu tercih edilmesi durumunda hazırlık eğitmen tarafından yapılır.
  4. Kurstan daha iyi verim alınabilmesi için katılımcıların temel seviyede programlama bilgisine sahip olmaları ve Python&Scala dillerine aşina olmaları tavsiye edilir.
  5. Tavsiye edilen eğitim süresi 5 gündür. Süre kısa tutulduğunda tercihe göre bazı konular atlanır veya konulara ayrılan zaman daha kısa tutulur.

 

Hakkında Veri Bilimi OKULU

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Pandas Dataframe’i MongoDB’ye Yazmak

Merhabalar bu yazımızda Python Pandas Dataframe verisini Python kullanarak MongoDB’ye yazacağız. MongoDB ile etkileşime geçmek …

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir