Veri Bilimi Okulu

Apache Flink FileStream Window Aggregation

Loading

Merhabalar. Bu yazımızda Apache Flink ile FileStream kaynağından veri okuyacağız ve okuduğumuz bu veri üzerinde zaman pencereli (window) aggregation yaparak ekrana yazdıracağız. Çalışmamda kullandığım ortam bilgileri şu şekildedir: Ubuntu, Intellij IDEA (maven projesi), Java8, Scala 2.11, Flink 1.9.2, github projesine buradan erişebilirsiniz. Uygulamamızda iris veri setini (data-generator input klasörü içinde mevcuttur) data-generator ile bir dizine […]

Apache Flink Dataset Api ile Temel Veri Analizi

Loading

Herkese merhabalar. Bu yazımızda Apache Flink Dataset Api ile örnek veri setleri üzerinden veri analizi yapacağız. Yapacağımız örnek meşhur retail_db veri tabanındaki csv dosyalarını kullanarak tutar bakımından en çok iptal edilen ürünleri bulmaya çalışmak olacak. Çalışmamda kullandığım ortam bilgileri şu şekildedir: Ubuntu, Intellij IDEA (maven projesi), Java8, Scala 2.11, Flink 1.9.2, veri setlerine buradan github projesine […]

Apache Spark ile LightGBM Kullanarak Sınıflandırma Yapmak

Loading

Merhabalar. LightGBM’in ününü duymuşsunuzdur. Ancak bunu Spark ile kullanmak istediğinizde maalesef bu algoritma Spark ML’de bulunmuyor. Bu yazımızda LightGBM’i Spark içinde nasıl kullanacağımızı PySpark ile uygulamalı olarak göreceğiz. Bildiğimiz gibi Apache Spark büyük veri dünyasında makine öğrenmesi çalışmalarının vazgeçilmez bir aracı. Küçük veri dünyasında scikit-learn ile yaptığımız işleri büyük veri tarafında genelde Spark ile yaparız. […]

Docker ve Kubernetes Kurulumu: VirtualBox+CenOS7+Docker+Minikube

Loading

Herkese merhaba. Bu yazımda eğitim veya geliştirme amaçlı Docker ve Kubernetes (Minikube) ortamını nasıl kuracağımızdan bahsedeceğim. Peşinen söyleyeyim ki Kubernetes değil, üzerinde Kubernetes kullanabileceğimiz Minikube kuracağız. Konteynırlaşma trendi artarak devam ediyor. Yakın bir zamanda “Hala Docker bilmiyor musun? Cahil misin nesin?” muhabbetiyle karşılaşabilirsiniz. Sadece Docker olsa iyi bir de bunun Kubernetes’i var. Elbette bir çok […]

Database, Datawarehouse, Datalake derken bir de Lakehouse mu çıktı başımıza?

Datalake lakehouse datawarehouse

Loading

Geçenlerde lakehouse kavramını duyunca Hoppalaaa!!! diyesim geldi. Neredeyse her güne yeni bir kavramla uyandığımız bir devirde yaşıyoruz. Daha datawarehouse ne anlayamadan başımıza datalake çıkardılar, şimdi ise lakehouse. Merak ettim, lakehouse da acaba aynı şeylerin süslenmiş başka isimlerle sunulması mı diye? Değilmiş. Bir veri mühendisi, veri bilimci veya veri analisti için bir veri akışı (data pipeline) […]

Pratik Bilgiler, Pratik Komutlar: Python Pandas

Loading

Merhabalar bu yazımızda Python Pandas ile pratik bilgiler ve komutları paylaşıyor olacağım. Pandas dataframe tarih (date) filtreleme Dataframe içinde takrarlanan sütunları elde etmek Bir sütunda birden fazla değer içinde arayarak filtrelemek: where a_column in () Pandas ile zip dosyasından veri okumak Python Pandas head Sütun Truncate Önleme – pandas truncate column Pandas dataframe sütunlarını tek […]

Pratik Bilgiler ve Komutlar: Cassandra

Loading

Merhabalar. Bu yazımızda popüler NoSQL veri tabanlarından birisi olan Apache Cassandra ile yaygın olarak kullandığım pratik komut ve ipuçlarını paylaşıyor olacağım. Eğer Cassandra eğitimi almak istiyorsanız Apache Cassandra eğitimi tam size göre olabilir. Cassandra eğitim detaylarına buradan ulaşabilirsiniz. Cassandra nedir? Cassandra cluster üzerindeki bir node hangi portu kullanıyor? Cassandra keyspace oluşturmak Cassandra’da consistency level’i nasıl […]

Pratik Bilgiler ve Komutlar: Apache Spark

Loading

Apache Spark ile zamanla edindiğim ipuçları ve pratik bilgileri diğer pratik bilgiler ve komutlar yazı dizilerinde olduğu gibi sizlerle paylaşacağım. Faydalı olmasını umuyorum. Spark RDD[String] nasıl dataframe yapılır? Rdd’yi Dataframe’e Dönüştürmek Spark Dataframe Vektör tipini Array tipine çevirmek Pyspark ile Excel’e yazmak Spark ile otomatik olarak sütun seçmek (Scala) spark-shell’i başlatırken konfigürasyonları nasıl ayarlarım? PySpark […]

Pratik Bilgiler ve Komutlar: Kubernetes

Loading

Merhabalar. Pratik bilgiler ve komutlar serimizin bu yazısında Kubernetes ile ilgili işinize yarayacağını düşündüğüm pratik komut ve bilgilere yer vereceğim. Kubernetes bir container orchestration aracıdır. Hatta mevcutların en popülerlerindendir. 2015 yılında ortaya çıkmasına rağmen geniş bir kullanıma kavuştu. Tabi bunun arkasında Google’dan neşet etmesi ve Google tarafından kullanıyor olmasının payı büyük. Kubernetes cluster bilgisini nasıl […]

Pratik Bilgiler ve Komutlar: Hive

Loading

Merhabalar. Pratik Bilgiler ve Komutlar serisinin bu yazısındaki ipuçları Apache Hive ile ilgili olacaktır. Apache Hive HDFS (Hadoop Distributed File System) üzerinde tutulan verileri SQL yeteneklerimizle manipüle etmemizi sağlayan bir araç. Tek cümle ile tanımlamak gerekirse; veri tabanı tadında ama veri tabanı değil. MapReduce kodu yazmak yerine SQL sorguları ile veri manipülasyonu yapmamızı sağlıyor. Aşağıda […]

Spark ile Cassandra’dan Veri Okumak

Loading

Merhabalar, Spark ve Cassandra büyük veri dünyasının önde gelen 2 popüler aracı. Apache Cassandra NoSQL veri tabanlarının önde gelen isimlerinden birisi. Adem-i merkeziyetçi yapısıyla (no master-slave) ve yüksek yazma performansıyla dikkatleri üzerine çekiyor. Apache Spark ise bildiğimiz gibi büyük veri işleme motoru/çatısı. Spark ile çok geniş yelpazede veri manipülasyonlarını gerçekleştirebiliyoruz. Spark’ın klasik veri işleme araçlarından […]

Pratik Bilgiler Komutlar: Linux

Loading

Merhabalar. Serimizin bu yazısındaki ipuçları linux işletim sistemleri ile ilgili olacak. İki linux bilgisayar arasında nasıl dosya kopyalanır? Linux’ta her şeye otomatik olarak yes demek. Elle her sorulduğunda yes demekten kurtulmak – otomatik yes demek – otomatik evet demek. Linux CentOS7’de zaman dilimini İstanbul olarak ayarlamak. Linux CentOS7’de tarih saati güncellemek Aramada büyük-küçük harf duyarlılığını […]

Local Outlier Factor ile Anormallik Tespiti

Loading

Local Outlier Factor(LOF) bir noktanın (gözlemin) anormallik derecesini bize söyleyen bir algoritmadır[1]. Anormallik Tespiti (Outlier Detection) Yöntemleri yazımda anormallik tespit algoritmalarının genelde iki tür sonuç ürettiğinden ve bu sonuçların skor veya etiket olabileceğinden bahsetmiştim. LOF, skor üretenlerden. LOF ne yapıyor? LOF aslında biraz k en yakın komşu (K Nearest Neighbor – KNN) sınıflandırma algoritmasına benziyor. […]

Pratik Bilgiler ve Pratik Komutlar: Elasticsearch

Loading

Merhabalar. Serinin bu yazısındaki ipuçları Elasticsearch ile ilgili olacak. Elasticsearch ile adres satırından nasıl sorgulama yapılır? Elasticsearch ile adres satırı sorguları nasıl pretty yazdırılır? Elasticsearch index listeleme Elasticsearch truncate index, delete all documents from Elasticsearch index Elasticsearch üzerinde SQL kullanabilir miyiz? Nasıl? Elasticsearch’te mevcut index’e bir alan eklemek: Adding a field on existing index on […]

Apache Spark Elasticsearch Entegrasyonu

Loading

Merhabalar. Bu yazımızda csv dosyasından okuduğumuz bir veri setini Elasticsearch’e bir index olarak yazacağız ve yazdığımız index’i Spark ile okuyacağız. 1. Giriş Apache Spark ve Elasticsearch büyük veri dünyasının en popüler araçlarından ikisi. Spark Elasticsearch ile harika işler çıkarabilirsiniz. Spark ile büyük veriyi işleyebilirken, Elasticserach ile büyük veriyi aranabilir, analiz edilebilir ve görselleştirilebilir bir şekilde […]

Python Kafka: Veri Yazma ve Okuma

Loading

Merhabalar, veri ile uğraşan hemen hemen herkes Kafka’ya veri yazıp Kafka’dan veri okumadıysa bile Kafka’nın adını mutlaka duymuştur. Bu yazımızda Python Kafka ile Kafka’ya mesaj gönderip Kafka’dan mesaj okuyacağız. İlk önce elle yazdığımız basit bir metni, daha sonrada pandas dataframe’i mesaj olarak gönderip okuyacağız. 1.Giriş Apache Kafka son dönemlerin en popüler kendi tabirleri ile “A […]

Anormallik Tespiti (Outlier Detection) Yöntemleri

Loading

Merhaba. Bu yazımda outlier detection Türkçe ifadesiyle aykırı gözlem (anomali), anormallik tespitinden bahsedeceğim. Yazının devamında aykırı, sıra dışı, anormal, outlier, anomaly, anomali kelimelerini benzer anlamlarda kullanıyor olacağım. Aykırı gözlem nedir? Grubbs[1]’a göre aykırı gözlem; “Aynı örneklem içindeki diğer gözlemlerden belirgin derecede farklı olan / sapma gösterendir“. Belli bir zamana kadar aykırılık tespitine veri ön işlemesinin […]

Pratik Bilgiler ve Komutlar: MongoDB

Loading

Merhabalar pratik bilgiler, pratik komutlar yazı dizimizin bu bölümü tamamen mongodb ile ilgili olacak. Python ile MongoDB’ye nasıl bağlanırım? MongoDB’de bulunan veri tabanlarını nasıl listelerim? MongoDB’de veri tabanı yaratmak veya seçmek MongoDB’de bir veri tabanındaki collection isimlerini listelemek MongoDB veritabanında yeni bir collection yaratmak MondoDB collection içinde kaç document (kayıt) var? MongoDB’de bir collection içine […]

Python Mongodb: Pandas Dataframe’i MongoDB’ye Yazmak

Loading

Merhabalar bu yazımızda Python Mongodb entegrasyonunu yapıp Python Pandas Dataframe verisini Python kullanarak MongoDB’ye yazacağız. MongoDB ile etkileşime geçmek için çok farklı dillere ait driver paketler yazılmış. Bu dillerden birisi de Python. Bu yazımızda Python’ın pymongo kütüphanesini kullanacağız. Bu kütüphane Python diliyle MongoDB’de bir şeyler yapmak isteyenler için yegane çözüm. Bu yazıyı takip etmek için […]

Pratik Bilgiler ve Komutlar-3

Loading

Merhaba “Pratik Bilgiler, Pratik Komutlar” yazı serisinin 3.’süne hoş geldiniz. Bu serinin amacı karşılaştığımız hata ver zorlukları pratik ve hızlı bir şekilde aşmak. Örneğin mysql root şifremi unuttum ya da bilmiyorum ne yapmalıyım? sorusunun cevabı “MySQL root şifresini nasıl sıfırlarız?” sorusunda. Python listesini filtrelemek Apache Spark Dataframe string timestamp tür dönüşümü MySQL root şifresini nasıl […]

Password Requirements:

  • At least 8 characters
  • At least 1 lowercase letter
  • At least 1 uppercase letter
  • At least 1 numerical number
  • At least 1 special character