Docker Sık Kullanılan Komutlar-1

Merhaba bu yazımda sık sık kullandığım docker komutlarını derleyeceğim. NGINX Örneği ile Docker Container Yaratma ve Çalıştırma Docker Container Listelemek Çalışan Docker Container Özelliklerini Yazdırmak Docker Container Durdurmak Docker Container Kaldırmak (rm) Docker Images Listeleme Ana Makineden Docker Container’a Dosya Kopyalamak Docker Container’dan Ana Makineye Dosya Kopyalamak Çalışmayanlar dahil Docker Container’ları Listelemek Docker Container Komut […]

HDP-Sandbox içinde YARN’a Daha Fazla Kaynak Tahsis Etmek

Merhabalar. Bu yazımızda Hortonworks’ün Hadoop sürümü olan HDP 2.6.4 Sandbox üzerinde YARN’a daha fazla kaynağı nasıl tahsis edeceğimizi göreceğiz. Bu yazımızın amacı Sandbox ile uygulama yaparken en fazla bir YARN uygulaması çalıştırabilecek kadar kısıtlı kaynağa (özellikle de RAM) sahip omasıdır. Örneğin Sandbox’ın varsayılan ayarlarında YARN belleği 3000 MB ayrılmış. Biz bu kısıtlı kaynak ile hemSpark […]

Apache Spark ile Parquet Formatında Veri Okuma (Python)

Merhaba bu yazımızda parquet uzantılı bir dosyanın pyspark ile nasıl okunacağını göreceğiz. Bu yazıyı yazmamızın sebebi pyspark ile parquet dosyası okumanın, standart dataframe API’si ile csv gibi yaygın formatları okumaktan farklılık göstermesidir. Bu çalışma esnasında kullandığım ortamlar: İşletim sistemi: Windows 10 64 bit Pro IDE: Jupyter Notebook (Anaconda ile kuruldu) Spark 2.3.1 Dil: Python 3 […]

Apache Spark ile Parquet Formatında Veri Yazma ve Okuma (Scala)

Merhaba. Bu yazımızda Apache Spark ile csv uzantılı bir veri dosyasını okuyup parquet uzantılı olarak diske kaydedeceğiz ve kaydettiğimiz parquet dosyasını tekrar Spark ile okuyacağız. Spark, birçok formatta veriyi okuyup yazabiliyor. Parquet, csv dosyalarına göre daha az yer kapladığı gibi okuma performansı da daha yüksek. Ayrıca okuma yaparken inferSchema veya header gibi ilave seçenekler kullanmıyoruz. Bu bilgiyi parquet formatından […]

Python Pandas float_format

Merhaba. Pandas dataframe çıktılarını incelemek için çoğu zaman df.head() metodunu kullanırız. Ancak bazen ondlıklı sayıların gösteriminde noktadan sonra çok fazla rakam olur ve bu çıktının okunup anlaşılmasını güçleştirir. Daha basit ve sade bir çıktı için ondalıklı sayıları formatlayabiliriz. Bu yazımızla bununla ilgili basit bir örnek yapacağız. Basit bir pandas dataframe oluşturalım: Yukarıdaki dataframe içinde noktadan […]

Python Pandas ile Aynı Anda Birden Fazla Excel Dosyasını Okumak

Dosya veri kaynakları arasında csv uzantılı dosyalar kadar excel dosyaları da bulunmaktadır. Pandas kütüphanesi her ne kadar bize bir .xls veya .xlsx uzantılı excel dosyalarını okumamıza imkan tanısa da bir dizin içinde birden fazla excel dosyasını okumak gerektiğinde iş bu kadar basit olmuyor. Birden çok excel dosyasını aşağıdaki gibi okuyabiliriz. yukarıda all_data ile her for […]

Spark Dataframe İçindeki Kategorik Nitelikleri Otomatik Olarak Seçmek

Merhaba. Spark dataframe ile çalışırken zaman zaman içindeki kategorik değişkenleri seçeriz. Özellikle makine öğrenmesi öncesinde veri hazırlığı aşamasında bunu mutlaka yapmalıyız. Çünkü kategorik nitelikler veri hazırlığı sürecinde stringIndexer, OneHotEncoder gibi daha farklı aşamalardan geçer. Bu yazımızda Spark dataframe içindeki nitelikleri kategorik ve nümerik olarak ayırt eden ve iki farklı liste içinde bunları toplayan spark kodlarını yazacağız. […]

Apache Spark DataFrame İçinden Değerlere Ulaşmak

Merhabalar. Bu yazımızda Apache Spark Dataframe içindeki tekil bir değeri basit veri türünde (Int, Double vb.) nasıl elde edeceğimizi bir örnek ile göreceğiz. Benim yaptığım çalışma esnasında kullandığım ortam bilgileri: İşletim sistemi: Windows 10 64 bit Pro IDE: Intellij IDEA Community Edition Spark 2.3.1 Dil: Scala Kütüphaneler import org.apache.spark.sql.SparkSession import org.apache.log4j.{Logger, Level} Log Seviyesini ERROR […]

Ubuntu Kafka Kurulumu

Apache Kafka, büyük miktarlarda gerçek zamanlı veriyi verimli bir şekilde ele almak için tasarlanmış popüler bir dağıtık mesaj sistemidir. Bir Kafka kümesi(cluster), sadece yüksek derecede ölçeklenebilir ve hataya dayanıklı olmakla kalmaz, aynı zamanda ActiveMQ ve RabbitMQ gibi diğer mesaj platformlarına kıyasla çok daha yüksek bir performansa sahiptir. Genel olarak yayınla (publish) / abone ol(subscribe) mesajlaşma […]

Windows 10 Üzerine Kafka Kurmak, Mesaj Okumak ve Yazmak

Merhaba, bu yazımızda akan veri işleme ve yönetmede oldukça popüler olan Apache Kafka’nın Windows 10 üzerine kurulumu ve temel komutlarından bahsedeceğiz. Ön Gereksinimler Java kurulu olmalı Sıkıştırma programı kurulu olmalı (Örn:7-zip) ———- 1. Zookeeper Kurulumu: Bir çok Apache projesi gibi Kafka da çalışmak için Zookeeper’ın varlığına ihtiyaç duyuyor. Zookeeper’ı buradan indirebilirsiniz. Zookeeper için C veya […]

Spark Dataframe&Dataset Operasyonları-2:

Merhaba, bu yazımızda veri ön hazırlığı aşamasında, veri yüklerken, Spark Dataframe oluştururken, dataframe şekillendirirken, onu dönüştürürken, dataframe üzerinde veri keşfi yaparken vb. işlemler için kullandığım spark yapısal API operasyonlarından faydalı bulduklarımı paylaşacağım. Görkemli ve haşmetli makine öğrenmesi, derin öğrenme ve yapay zeka modelleri ile kedileri ve köpekleri ayırmak dururken bu tür basit işlerle niye uğraşıyorsun […]

Kovaryans Matrisi (Covariance Matrix) Nedir?

Kovaryans iki değişken arasındaki doğrusal ilişkinin değişkenliğini ölçen bir kavramdır. Betimsel istatistiktir. Yani var olan bir şeyi bize söyler. Ortada tahmin yoktur. Sonucun pozitif olması artan bir doğrusal ilişkiyi, negatif olması azalan bir doğrusal ilişkiyi ve sıfır civarında olması ilişkinin olmadığını gösterir. Kovaryans matrisi ise bu değişkenlerin karşılıklı kovaryans değerlerinin bulunduğu bir matristir. Aşağıda örnek […]

Apache Spark ile Artık İdeal Küme Sayısını Bulmak Daha Kolay

Bildiğimiz gibi makine öğrenmesinde öğrenme yöntemleri genel olarak denetimli (supervised) ve denetimsiz (unsupervised) şeklinde ikiye ayrılıyor. Denetimli yöntemlerde sınıflandırma ağırlık kazanırken denetimsiz yöntemlerde ise kümeleme öne çıkmaktadır. Sınıflandırmada veri içinde etiketlenmiş bir hedef değişken bulunurken kümelemede ise herhangi bir hedef değişken bulunmaz. Bu nedenle kümeleme daha çok veri içindeki nesnelerin doğal gruplanmalarını ortaya çıkarmaya yöneliktir. […]

Windows 10 Spark-2 Kurulumu

Apache Spark büyük veri analizinin en önde gelen platformu olarak popülerliğini ve önemini gittikçe arttırıyor. Bir çok insan Spark’ın bu değerini farkettiğinden Spark öğrenmeye başlıyor. Birçok kullanıcının bilgisayarında Windows işletim sistemi kurulu. Spark’ı Windows işletim sistemi üzerine de kurarak kullanabiliriz. Ancak bu hususta çok detaylı bir kılavuz olmadığından bir çok Spark öğrencisi Windows üzerinde Spark […]

Apache Spark 2.3.0 OneHotEncoderEstimator: Scala Örnek Uygulaması

Apache Spark 2X’e geçtikten sonra dördüncü sürümünü genel kullanıma sundu. Son sürüm 2.3.0. Bu sürümle birlikte gelen bir çok yenilik arasında MLlib kütüphanesindeki OneHotEncoderEstimator da yer alıyor. Bu sınıf, makine öğrenmesinde veri hazırlığı aşamasında kategorik niteliklerin vektör haline getirilmesine katkıda bulunuyor. Eskisinden farkı; sınıf Transformer’dan Estimator’a dönmüş. Anlaşılabilecek değişiklik; eski sürümde nitelikleri tek tek girdi olarak […]

Linux Kullanıcı Ekleme, Gruba Ekleme, Parola-Şifre Belirleme

Linux’ta sık sık yapmayıp da ara sıra yaptığımız bazı şeyleri unutuyoruz. Ben de öncelikle kendim hatırlamak için kısa ve öz bir şekilde CentOS7 üzerinde kullanıcı oluşturma, grup oluşturma, home dizin oluşturma, kullanıcıyı gruba ekleme ve şifre belirleme gibi hususlara örnek vereceğim. Kullanıcı ve home dizin oluşturma Önce kullanıcı ve home dizin oluşturalım: -m argümanı kullanıcı […]

Hadoop HDFS Nedir?

HDFS Hadoop projesinin en temelinde bulunan çok büyük hacimli verileri depolamak için tasarlanmış java tabanlı dağıtık bir dosya sistemidir. Hatalara karşı dayanıklıdır. Ölçeklenebilir. Düşük maliyetlidir. Büyük veriler için idealdir. HDFS Öne Çıkan Özellikler Bir kez yaz defalarca oku Özel bir donanım istemez, marka bağımsız Anında cevap beklenen uygulamalar için ideal değil Büyük verileri makul bir […]

Keras Derin Öğrenme Kütüphanesi ile Sınıflandırma: Iris Veri Seti Üzerinde Uygulama

Merhaba. Bu yazımızda son yıllarda çok popüler bir konu olan derin öğrenme ile basit bir sınıflandırma uygulaması yapacağız. Derin öğrenmenin temelinde yapay sinir ağları bulunmaktadır. Uygulamamızda veri seti olarak Iris veri setini, sınıflandırıcı olarak da yapay sinir ağını kullanacağız. Programlama dilimiz Python, temel kütüphenelerimiz scikit-learn, tensorflow, keras olacaktır. Iris veri setini bu yazı ile daha yakından […]

Çoklu Doğrusallık Sorunu Çözümünde VIF

Çoklu regresyon analizinde bağımsız niteliklerin bağımlı nitelik üzerindeki etkisi incelenir. Bazı bağımsız nitelikler birbirleriyle yüksek doğrusal korelasyona sahip olduğundan bağımlı değişken üzerindeki etkisi dağılır. Modelin sadeliği va anlaşılırlığı adına bağımlı değişkene en çok etki eden az sayıda değişken ile model oluşturmak arzu edilen bir durumdur. Küçük veri analizinde kullanılan SPSS gibi paket programlar çoklu bağlantı tesptini yapabilmektedir. […]

Anormallik Analizinde Kullanılan Yöntemler (Outlier Analysis Methods)

Outlier Analysis Methods’e girmeden önce kısa bir alıntı ile giriş yapalım. Siyah kuğular görülmeden evvel yeryüzündeki tüm kuğular beyaz sanılırmış. Bir gün siyah kuğu ile karşılaşan insanoğlu, onu sıra dışı ilan etmiş. Nicholas Taleb, Black Swan isimli kitabının girişinde bu konuya temas eder. Kitabın ana fikri şu: Aslında insanlar önemli kararları ve köklü düzen değişikliklerini […]

Yazar: Erkan ŞİRİN