Yazar Hakkında
Toplam 152 yazı
Erkan ŞİRİN
Erkan ŞİRİN
2014'ten beri hem akademik alanda hem de sektörde pratik anlamda büyük veri ve veri bilimi ile ilgili çalışmalar yürütmektedir. Büyük veri ve veri bilimi ile ilgili birçok kurum ve şirkete danışmanlık ve eğitimler vermekte, projeler icra etmektedir. Çalışma alanları: büyük veri platformlarının kurulum ve yönetimi, büyük veri üzerinde makine öğrenmesi, olağan dışılık ve sahtecilik tespiti, akan veri işleme ve veri hazırlama sürecidir.
Büyük Veri İş Zekası PySpark Python Spark

Spark ve Delta Lake ile Büyük Veri Slowly Changing Dimension Type2

Bu yazımızda veri ambarı dünyasında boyut (dimension) tablolarında sıklıkla kullanılan bir güncelleme yöntemi olan slowly changing dimension örneğini Apache Spark ve Delta Lake ile yapacağız....

Büyük Veri PySpark Spark

Spark İşini Cep Telefonundan Başlatmak: Apache Livy Server

Başlık çarpıcı geldi değil mi? İnanmazsınız ancak doğru. Spark işlerini genelde client kütüphanelerinin kurulu olduğu makinelerden, yani Spark’ın Hadoop’un nerede olduğundan haberdar ve konfigürasyonları yapılmış...

Büyük Veri Uygulama

Apache Flink HDFS: Okuma ve Yazma

Merhabalar. Bu yazımızda Apache Flink Datastream API ile HDFS’ten veri okuma ve tekrar HDFS’e yazma ile ilgili basit bir örnek yapacağız. Bu yazıyı yazmaya beni...

Büyük Veri Scala Spark Uygulama

Spark Structured Streaming: Birden Fazla Kafka Topic’e Produce Etmek

Merhabalar. Apache Spark Structured Streaming yaygın kullanılan akan veri işleme platformlarından birisi. Elbette akan verinin işlendiği bir ekosistemde Apache Kafka da bir şekilde yerini alıyor....

Makine Öğrenmesi Model Değerlendirme model deployment

MLflow: Makine Öğrenmesi Hayat Döngüsü Platformu

Merhabalar bu yazımızda MLflow’u tanımaya çalışacağız. MLflow nedir sorusuna “MLflow, açık kaynaklı bir makine öğrenmesi hayat döngüsü platformudur.” şeklinde cevap verebiliriz. Makine öğrenmesi çalışmalarında; Bir...

Büyük Veri Flink

Apache Flink FileStream Window Aggregation

Merhabalar. Bu yazımızda Apache Flink ile FileStream kaynağından veri okuyacağız ve okuduğumuz bu veri üzerinde zaman pencereli (window) aggregation yaparak ekrana yazdıracağız. Çalışmamda kullandığım ortam...

Büyük Veri Flink

Apache Flink Dataset Api ile Temel Veri Analizi

Herkese merhabalar. Bu yazımızda Apache Flink Dataset Api ile örnek veri setleri üzerinden veri analizi yapacağız. Yapacağımız örnek meşhur retail_db veri tabanındaki csv dosyalarını kullanarak...

Spark Büyük Veri PySpark

Apache Spark ile LightGBM Kullanarak Sınıflandırma Yapmak

Merhabalar. LightGBM’in ününü duymuşsunuzdur. Ancak bunu Spark ile kullanmak istediğinizde maalesef bu algoritma Spark ML’de bulunmuyor. Bu yazımızda LightGBM’i Spark içinde nasıl kullanacağımızı PySpark ile...

Distributed Systems Docker Kubernetes Kurulum Uygulama Araçları

Docker ve Kubernetes Kurulumu: VirtualBox+CenOS7+Docker+Minikube

Herkese merhaba. Bu yazımda eğitim veya geliştirme amaçlı Docker ve Kubernetes (Minikube) ortamını nasıl kuracağımızdan bahsedeceğim. Peşinen söyleyeyim ki Kubernetes değil, üzerinde Kubernetes kullanabileceğimiz Minikube...

Datalake lakehouse datawarehouse
Büyük Veri Distributed Systems

Database, Datawarehouse, Datalake derken bir de Lakehouse mu çıktı başımıza?

Geçenlerde lakehouse kavramını duyunca Hoppalaaa!!! diyesim geldi. Neredeyse her güne yeni bir kavramla uyandığımız bir devirde yaşıyoruz. Daha datawarehouse ne anlayamadan başımıza datalake çıkardılar, şimdi...

×

Bir Şeyler Ara