Anasayfa / Büyük Veri / Big Data Eğitimi (Büyük Veri Eğitimi)

Big Data Eğitimi (Büyük Veri Eğitimi)

Büyük veri dünyasının yıldızı Apache Hadoop’u herkesin anlayabileceği basit ve sade bir yaklaşımla anlatıyoruz. Kendi kendinize öğrenirken çok zorlandığınız ve zaman kaybettiğiniz noktalarda sizlerin daha hızlı ve kolay öğrenmesi için derslerde bol bol benzetme, şekil ve animasyon kullanılmaktadır. Benzetmelerin amacı olayın altında yatan mantığı kavramak ve konunun anlaşılmasını kolaylaştırmaktır. Bazı konuların altında yatan temel mantığı iyi bir eğitmen ile kavramak; küçük küçük şeyleri öğrenmek için günler ve haftalar harcamak zorunda kalmanızı engeller. Bu noktada kursun size sağlayacağı en büyük katkı hızdır. Aynı şeyleri mutlaka kendiniz farklı kaynaklardan araştırarak öğrenirsiniz ancak bu kadar hızlı ilerlemeniz mümkün olmaz. İkinci olarak kurs sonunda kendi kendinize öğrenme olgunluğuna erişeceksiniz. Toparlamak gerekirse; bu kurstan alacağınız en büyük iki kazanım; “hız” ve “kendi ayaklarının üzerinde durabilme” olacaktır. Ayrıca, bu alandaki kaynakların çoğu İngilizce olduğundan kendi ana dilinizde eğitim alma avantajını yakalayacaksınız.

Bu kurs özellikle büyük veri konusunda ilerlemek isteyenler için güzel bir başlangıç noktası. Kursu bitirdikten sonra kendi kendinize öğrenme ve kendinizi daha ileri seviyelere taşıma sezgilerini kazanacağınızı umuyoruz. Birçok şeyde olduğu gibi büyük veri konusunda da zor olan aşama ilk öğrenme aşamasıdır. Daha yerli bir tabirle “olaya girme” aşamasıdır. Olaya girdikten sonra emin olun kendi kendinize ilerlemeye başlayacaksınız. Burada öğrendiklerinizin çeşitli versiyonlarını kendiniz deneyecek, hata alacak, çözmeye çalışacak ve farkında olmadan yeteneklerinizi geliştireceksiniz.

Bazı konulara özellikle fazla yer vermedik. Bunların başında da Apache Pig ve MapReduce geliyor. Spark’ın çıkmasıyla beraber MapReduce artık müzelik olma yolunda ilerliyor. Üstelik, Apache Tez’in ortaya çıkmasıyla beraber artık Hive ve Pig de MapReduce kullanmak zorunluluğundan kurtuldu. MapReduce kullanan geriye Sqoop gibi daha az ve alternatifleri olan küçük bileşenler kalıyor. Ancak, MapReduce üzerinde çalışmasına rağmen Sqoop hala çok güzel bir araç.

Kursun hedef kitlesi başlangıç ve orta seviyeli kursiyerlerdir. Yeni başlayanların öğreneceği şeyler daha çok olamasına rağmen muhakkak orta ve ileri seviye kursiyerlerin de içinden öğreneceği bir çok şey çıkacaktır.

Not: Yüzyüze eğitimler kurumlar ve şirketler içindir. Perakende kursiyerler için 10’ar kişilik gruplar oluştuğunda kurs açılmaktadır.

Kurs programımız aşağıdadır.

Kursun Udemy linki: https://www.udemy.com/adan-zye-uygulamal-hadoop-buyuk-veri-egitimi/

Daha fazla bilgi için: veribilimiokulu@gmail.com

Tel: 05065432731

BÖLÜM-1 GİRİŞ

Tanışma ve büyük veri (big data) ortamının kurulması

Örnek gösterim: Bir veri setini tablo formatında Hadoop’a yüklemek
Açık kaynaklı adult veri setini indirme
Hive web arayüzü kullanılarak veri setini tablo olarak kaydetme
Kaydedilen tablo üzerinde basit sorgulamalar yapma

BÖLÜM-2 Büyük Veri ve Hadoop Giriş

Büyük veri teorisi
Büyük veri ve ortaya çıkış sebepleri
Büyük veri kaynakları
Büyük veri ile başa çıkmanın zorlukları
Büyük veri kullanım alanları
Büyük verinin karakteristikleri
Veri artış tahmini ve kritik veri trendi
Büyük veri işlemede kullanılan donanımları anlama
Bir çok bilgisayarı birlikte kullanmanın zorlukları
Büyük veriyi doğuran sebepler ve onu işlemeyi kolaylaştıran gelişmeler
Büyük veri tanımı
Büyük veri ve büyük veri yeteneklerine sahip olmanın önemi

Hadoop genel tanıtımı
Hadoop temel özellikleri
Hadoop ve klasik sistem mimarisi karşılaştırma
Hadoop’un hataya karşı dayanıklılığı (fault tolerance) nasıl oluyor?
Hadoop nasıl dağıtık işleme yapar?
Hadoop ölçekleme (scaling)
Hadoop Ekosistemini oluşturan bileşenlerin özet tanıtımı

BÖLÜM-3 Hadoop Temel Bileşenler

Hadoop Distributed File System (HDFS) Teorisi
HDFS nedir? HDFS öne çıkan özellikler
HDFS öne çıkan özellikler
Mekanik disk ve HDFS blokları
HDFS nasıl çalışır animasyon
NameNode ve DataNode kavramları
HDFS’den veri okuma animasyon
HDFS’e veri yazma
HDFS hatalara karşı nasıl ayakta kalır? (Fault tolerance)
HDFS Federation nedir?
HDFS High Availability nedir?
HDFS’e hangi yöntemlerle erişiriz?

HDFS Uygulaması
Temel linux komutları: dizin değiştirme, bulunduğu dizini yazdırma, kullanıcıları listeleme
Home dizinleri tanıma: Linux home dizini ve hdfs home dizini karşılaştırma
Linux ve Hadoop’da superuser kavramı
Ambari FilesView arayüzünden kişisel bilgisayardaki bir veriyi Hadoop’a yükleme
Linux ve Hadoop dosya/dizin erişim yetkilerini düzenleme, dosya sahipliğini değiştirme
Hadoop hdfs’ten bir dosyayı komut ile silme
Hadoop hdfs komutları ile linux dosya sisteminden hdfs’e veri aktarma

Apache YARN
YARN nedir, ne işe yarar?
Hadoop-1 ve Hadoop-2, YARN Hadoop’a neler kazandırdı?
YARN üzerinde çalışabilen çatılar (Frameworks)
ResurceManager NodeManager ve ApplicationMaster nedir?
Animasyon ile bir uygulamanın örnek YARN yolculuğu gösterimi
Capacity Scheduler ile kaynak tahsisi nasıl yapılır?
YARN Kuyruk mekanizması nasıl çalışır? Örnek bir YARN kuyruğu
Kullanıcı ve gruplar YARN kuyrupunda nasıl sıraya girer?
Kim ne kadar, ne zaman kaynak alabilir?

YARN Uygulama

YARN kuyruklarını inceleme
Yeni kuyruk yaratma
ResourceManager web arayüzünden uygulamaları ve kuyrukları inceleme
Yeni kuyruk yaratma

MapReduce nedir?
MapReduce Teori ve Intelij Idea ile MapReduce wordcount uygulaması

BÖLÜM-4 Büyük Veri Sorgulama (Querying Big Data)

Apache Hive ve Hive uygulamaları
Hive’a komut satırından erişim
Ambari HiveView ile Hive kullanımı
Mysql veritabanına bağlanıp Hive metadata şemasını inceleme
Hive external table yaratma
Örnek HiveQL sorguları
SQL editör ile Hive’ bağlanmak ve sorgu çalıştırmak

Apache Tez teorik anlatım

Presto ile Büyük Veri Sorgulamak
Presto Nedir?
Öne çıkan özellikleri
Presto kullanan firmalar
Presto mimarisi
Presto bileşenleri
Bir presto sorgusu nasıl çalışır?
Hadoop cluster üzerinde Presto

Presto ile Büyük Veri Sorgulamak

BÖLÜM-5 Durağan Veri Analizi (Batch Processing)

Apache Zeppelin

Apache Spark Giriş

Spark Structured API Teori ve Uygulaması

Spark Structured API Teori ve Uygulaması

Spark Structured API PySpark

Spark Low Level(RDD) API Teori ve Uygulaması

Spark ile Makine Öğrenmesi Giriş

Spark ile Makine Öğrenmesi Sınıflandırma Uygulaması

BÖLÜM-6 Veri Aktarımı

Apache Sqoop Teori ve Uygulaması
Sqoop ile Mysql’den Hadoop HDFS’e veri aktarımı
Sqoop ile Hadoop HDFS’den Mysql veri tabanına veri çıkarılması

Apache Flume
Flume ile log dosyaların HDFS’e atarılması

BÖLÜM-7 Veri Akışı (Streaming Platforms)

Kafka Teorisi

Kafka Uygulaması

Apache NiFi Kurulum, Teori ve Uygulaması

BÖLÜM-8 Büyük Veri Yönetimi, Güvenlik ve Kod Geliştirme

Hadoop Büyük Veri Cluster Yönetimi ve Güvenliği
Çok sunuculu bir cluster üzerinde gezinti
Hadoop Güvenlik Giriş
Apache Ranger ile Hive Erişim Yetkileri Düzenleme
Apache Ranger ile Hive Erişim Yetkilerini Düzenleme (Sütun Bazlı)

Windows Üzerinde Cluster için Kod Geliştirme, Kod Kullanma
Windows 10 Java8 Kurulumu
Windows 10 Git Giriş ve Kurulum
Windows 10 Apache Maven Kurulumu
Windows 10 Spark Kurulum
Windows 10 IntelliJ IDEA Kurulum
Spark Uygulamasına ait jar dosyası oluşturma
Spark uygulamasına ait jar dosyasını YARN modunda cluster üzerinde çalıştırma

BÖLÜM-9 Gerçek Zamanlı/Akan Veri İşleme (Realtime data processing)

Gerçek Zamanlı/Akan Veri İşleme (Streaming)
Gerçek Zamanlı/Akan Veri İşleme (Streaming) Teori
Apache Storm Teori
Spark Streaming Giriş: Eski-Yeni API Karşılaştırma
Streaming QuickExample
SparkStreaming Wordcount
Spark Streaming QuickExample
Spark DStream kaynaklar, start, stop, checkpoint, window
Spark FileStream, Window Operasyonu
Spark FileStream, countByWindow, reduceByKeyAndWindow, checkpoint

BÖLÜM-10 Büyük Veri Tabanları

Büyük Veri Tabanları
CAP Teoremi
Apache HBase Teorisi
Apache HBase Uygulama

Hakkında Veri Bilimi OKULU

GÖZ ATMAK İSTEYEBİLİRSİNİZ

IntelliJ IDEA ile Apache Spark Projesini Uzak YARN Cluster Üzerinde Çalıştırmak-2/2

Merhaba. Yazı serimizin ikincisine devam ediyoruz. Bir önceki ilk yazımızda konuya giriş yapmıştık. Hatırlayalım, amacımız …

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir