Apache Spark ML Kütüphanesi: Pipelines Örnek Uygulama

1. Giriş Merhabalar. Bildiğimiz gibi Spark, büyük veri dünyasının en popüler analitik motoru. Özellikle durağan büyük boyutlu veriler (persistent data) üzerinde hızlı bir şekilde makine öğrenmesi algoritmalarını çalıştırabilmesi Spark’ı farklı kılan özelliklerin başında geliyor. Arkadaşımız o kadar yetenekli ki sadece durağan verileri işlemiyor, aynı zamanda akan verileri de işleyebiliyor. Spark’ın makine öğrenmesi için bir kütüphanesi var. […]

Ensemble Yöntemler (Topluluk Öğrenmesi): Basit Teorik Anlatım ve Python Uygulama

1. Enseble Yöntemler Nedir? Bir Benzetme Sınıflandırma algoritmaları ile bir nesnenin hangi sınıfa dahil olacağını tahmin etmeye çalışırız. Birçok sınıflandırma yöntemi arasından probleme uygun olanı seçer, gerekli optimizasyonları yapar ve yüksek doğruluk oranlarını yakalamaya çalışırız. Peki bu işi 3-5 tane sınıflandırıcı ile yapsak veya aynı sınıflandırıcıyı aynı eğitim setinin farklı alt kümeleri ile eğitsek ve her birine […]

BG-12: Lokal Repository Kurulumu

Lokal respository kurum ve şirketlerin sıklıkla kullandığı bir uygulamadır. Lokal repository sayesinde her bir kullanıcı bilgisayarı veya sunucular genel internetten karşıladığı paket yükleme, güncelleme vb. işlemleri kurum/şirket lokal repository’sinden karşılar. Böylelikle yüzlerce binlerce bilgisayarın internetten tek tek yapacağı işi, bir sunucu bir kere yapar. Böylelikle geniş alan ağ trafiği azaltılmış olur. Lokalz repository kullanımına zorunlu […]

BG-9: Sanal Makineleri Kopyalama ve Parolasız SSH Bağlantısı

Baz şablon sunucu hazırlandıktan sonra bunu cluster planındaki sunucu sayısı kadar çoğaltıyoruz. Benim planımda 6 sunucu kurmak vardı, o yüzden 6 tane kopyaladım. Bu yazıda kopyalanmış sunucuların içine tek tek girip ip ve hostname değişikliği yapacağız. Tek tek yapmak ip çakışmasını önlemek için önemlidir. Sonrasında sunucular arasında passwordless-ssh kuracağız. Passwordless-ssh Ambari ile yapılan kurulumlarda büyük […]

BG6: VMWare Tools Yükleme

Sunucuları kopyalamadan önce sanal makinemize VMware Tools yüklemekte fayda var. Aslında bu diziden bağımsız bir yazı da olabilir. Buradaki salt amaç: Linux CentOS sanal makineye VMware Tools kurmaktır. Kuruluma geçmeden önce vmware tools için bazı ön gereksinimler var onları yum ile kurmalısınız: perl ve gcc. WM menüsünden Install VMware Tools’a basıyoruz. Karşımıza aşağıdaki ikaz çıkıyor. […]

BG1: Kişisel Bilgisayara Büyük Veri Kurulumu Yapmak

1. Giriş Big data bildiğimiz gibi son zamanlarda üzerinde çok konuşulan bir kavram. Yapılan araştırmalar ve sektörel gelişmeler big data kullanımının artan bir trendle devam edeceğini gösteriyor. Artık big data ile ilgili bilgi ve yeteneklerimizi; big data nedir? iyi bir şey midir? çalışma mantığı nedir? vb. ötesine taşımalıyız. Yani elimizi hamura sokmalıyız, pardon kodlara dokunmalıyız. Ben […]

BG2: Cluster Ağ ve IP Planlaması

1. VMware Sanal Ağ Ayarları Editörü (Virtual Network Editor) Hadoop Big Data Cluster için basit de olsa ağ ve ip planlaması yapmamız gerekiyor. Tüm sunucularımızın internete çıkmasını istiyoruz. Bu sebeple VMware network adaptörü NAT’da (varsayılan) bıraktık. Böylelikle oluşturulan her sanal sunucu ana makinenin ip’si ile internete çıkış sağlayacaktır. Ağ ve ip yapılandırmasını yapmak için VMware […]

BG3: VMWare ile Sanal Makine Yaratmak

Kişisel Bilgisayara Gerçek Bir Hadoop Big Data Clusterı Kurmak yazı dizimizin üçüncüsüne devam ediyoruz. İlk yazımızda genel bir giriş yapmıştık. İkinci yazımızda ise ağ ve ip planlaması yaptık. Bu yazımızda belirlediğimiz uygulama planına göre devam ediyoruz. Planımıza göre 6 sunuculu bir Hadoop cluster kurmayı hedeflemiştik. İşimizi kolaylaştırmak için VMware ile bir sanal makine oluşturacağız. Bu […]

BG4: İşletim Sistemini Yüklemek

Bu yazımızda daha önce VMware ile yarattığımız sanal makine üzerine CentOS7 64-bit işletim sistemini kuracağız, gerekli yükleme seçeneklerini belirleyeceğiz ve internete erişir hale getireceğiz. BASECENTOS7 sanal makinemizi başlatıyoruz. Sanal DVD sürücüde CentOS-7-x86_64-DVD-1708.iso takılı olduğu için oradan başlatacaktır. Karşımıza çıkan ekranın içine tıklayıp mouse ve klavye komutlarını sanal makineye teslim editoruz. TAB tuşuna tıklayıp imlecin yanıp […]

BG5: Gerekli Yazılımları Yüklemek

Şimdiye kadar internete bağlanan bir makine kurduk. Öncelikle internete bağlı bir makine yapmamızın sebebi gerekli yazılımların kurulması için internet bağlantısına ihtiyacımızın olmasıydı. Bu yazımızda aşağıdaki yazılımları kurup bazı küçük ayarlamalar yapacağız. 1. Yüklemesi Zorunlu Programlar: yum rpm scp, curl, unzip, tar wget OpenSSL Python 2.7.X java (1.8 ve üzeri) ssh ntp Ayrıca ben bu yazıdan itibaren ana […]

BG7: Baz Şablon Sunucu Konfigürasyonu

Baz şablon sunucumuza (basecentos7min) gerekli yazılımları yükledik. Şimde bazı ayarları yapılandıracağız. 1. Ağ ayarlarının kontrolü İşletim sistemi kurulumu esnasında ağ ayarlarını yapmıştık. Ağ ayarları deyince gözümüz korkmasın basit bir kaç değerden ibaret. ip, gateway, dns server, subnetmask ve hostname. 2. Hosts dosyasını düzenleme Her bilgisayar aslında kendi içinde küçük bir dosyada isim çözümlemesi tutar. Linux […]

BG8: Uzman Seviyesi Linux Kernel Ayarları

Linux kernel ayarlarını varsayılanda bıraksak da sıkıntı olmaz ancak biz bu makineleri big data için kullanacağız bu sebeple bazı konfigürasyon değişikliği yapmak hem faydalı hem de performans artırıcı olacaktır. Bu ayarları yapmadan devam edebilirsiniz. 1. Tavsiye Edilen Linux Kernel Parametreleri: Değiştireceğimiz temel kernel ayarları /etc/sysctl.conf dosyasındadır. [root@basecentos7min ~]# nano /etc/sysctl.conf # sysctl settings are defined through […]

BG9: Sanal Makineleri Kopyalama ve Parolasız (Passworless-SSH) Bağlantısı

BG10: Hadoop Cluster Planı

Hadoop clusterında bulunacak servislerin sunuculara dağıtımına cluster planlaması diyoruz. Hangi servis hangi sunucuda çalışacak, master nodelar hangileri, slave nodelar hangileri, edge server hangisi olacak, meta data tutan ilişkisel veritabanlarını nereye kuracağız, local repository nerede olacak bunların planlamasını bu aşamada yapıyoruz. Aşağıdaki şekilde plana göz atılabilir. Şeklin anlaşılır kılmak adına ayrıntılara yer vermedik. Biz burada basit […]

BG11: Edge Server Hazırlama (httpd ve pssh)

Şimdiye kadar cluster planımızı yaptık, birbiriyle haberleşen 6 sunucu hazırladık. Cluster planımızda node3’ü edge server olarak belirlemiştik. Bu yazımızda edge serverı clusterı kurmaya yönelik olarakApache httpd servisini ve paralel ssh (pssh) kurulumu yapacağız. 1. Paralel ssh Kurulumu ve Kullanımı Cluster kurulumunda veya yönetiminde sunucularımıza birçok işlem yapıyoruz. Her sunucuya tek tek bağlanıp bu işlemleri yapmak çok […]

BG12: Local Repository Kurulumu

1. Giriş Lokal respository kurum ve şirketler tarafından sıklıkla kullanılır. Lokal repository sayesinde kullanıcı bilgisayarları veya sunucular genel internetten karşıladığı paket yükleme, güncelleme vb. işlemleri kurum/şirket lokal repositorysinden karşılar. Böylelikle yüzlerce, binlerce bilgisayarın internetten tek tek yapacağı işi, bir sunucu bir kere yapar ve geniş alan ağ trafiği azaltılmış olur. Lokal repository kullanımına zorunlu hale […]

BG13: Ambari Kurulumu

Cluster planında Ambari/Edge Server olarak belirlediğimiz node3 sunucusuna bağlanıyoruz. Kurulumdan kastım; tarayıcıda http://node3.datalonga.com:8080 yazdığımızda karşımıza Ambari arayüzünün çıkmasını sağayacak herşeydir. Bu kurulum 3 aşamada olacak: Ambari Yükleme Ambari Kurma Ambari Çalıştırma 1. Ambari Yükleme (İşin Türkçesi Install Ambari ) O kadar hazırlık yaptık değil mi? Şimdi bir komutla yükleyelim artık. yum -y install ambari-server diyoruz […]

BG14: Ambari ile Cluster Kurulumu

Şimdiye kadar Ambari Server kurduk. Artık Ambari ile Hadoop cluster kurabiliriz. Çalışmıyorsa Ambari Server’ı çalıştıralım. node3 sunucusundan ambari-server start komutuyla çalıştıralım. Daha sonra tarayıcıdan http://node3.datalonga.com:8080 adresine gidelim ve Ambari’de admin/admin ile oturumu açalım. Launch Istall Wizard butonuna basalım ve cluster kurmaya başlayalım. 1. Cluster’a İsim Verme İlk adımda cluster’a isim veriyoruz. Ben keraban verdim. 2. Versiyon Seçme […]

Spark Dataframe Operasyonları-1: İndeks Ekleme ve Sütun Sırasını ve Türünü Değiştirme

Merhaba, bu yazımızda veri ön hazırlığı aşamasında veri yüklerken, Spark Dataframe oluştururken, dataframe şekillendirirken, onu dönüştürürken, dataframe üzerinde veri keşfi yaparken vb. işlemler için kullandığım örnek uygulamaları paylaşacağım. Basit bir yazı olacak ancak bunu önemsiyorum, çünkü birçok insan veri yükleme ve veri hazırlığı esnasında sorun yaşıyor. Spark 2.0 sürümüyle birlikte Spark dataframe API’ye daha fazla […]

Apache Spark2 Dataframe Tarih Saat İşlemleri

Merhaba, bu yazımızda Spark Dataframe tarih-saat için kullandığım bazı işlemleri paylaşacağım. Tarih saat işlemlerinde format dilden dile, ülkeden ülkeye ve kültürden kültüre biraz farklı olduğu için sık sık düzeltme ve dönüştürme yapmak gerekir. Örneğin bizde gün/ay/yıl kullanımı yaygın iken bazı ülkelerde /ay/gün/yıl kullanımı yaygındır. 03/07/1999 tarihini örnek alalım: Bu 3 Temmuz mu, yoksa 7 Mart […]

Yazar: Erkan ŞİRİN