Docker ile Hızlı ve Kolay PySpark ve Jupyter Kurulumu
Büyük veri analizi, günümüzün veri odaklı dünyasında giderek daha önemli hale geliyor. PySpark ve Jupyter Notebook, bu alanda en popüler araçlardan ikisi. PySpark, büyük veriyi...
ClickHouse : Hızlı ve Yüksek Performanslı Analitik Veri Tabanı
Herkese merhaba! Bu yazıya giriş yaparken yine “verinin giderek artan hacmi ve önemi” hakkında birkaç cümle yazmayı düşünüyordum, ancak bu farkındalık noktasına bence çoktan ulaştık😉...
Python Test İşlemleri
Bu yazıda, Python test konusuna odaklanacağız. Python’un test yazılımına destek sağlayan özellikler arasında çeşitli test çerçeveleri (unittest, pytest, doctest vb.), hata ayıklama yetenekleri, geniş kütüphane...
Kafka Monitoring için Grafana ve Prometheus Kullanımı
Monitoring; sistemlerin sağlıklı çalışıp çalışmadığını anlamak, hataları tespit etmek ve performansı ölçmek için hayati öneme sahiptir. Bu yazıda, popüler açık kaynak kodlu izleme (monitoring) araçları...
Apache Spark, Minio, Nessie Catalog, Iceberg ve Docker ile Lakehouse Örneği
Veri ambarı (data warehouse) ile veri gölünün (data lake) en iyi yönlerini birleştirerek bizlere ilişkisel veri tabanı konforunu büyük veri üzerinde sunan lakehouse çözümleri gün...
dbt (DataBuildTool) ile Veri Analitiği Yolculuğunda Yeni Bir Dönem
Yeniden merhaba! Hemen hemen her yazımızda veri analitiğinin, karmaşık ve dinamik bir süreç olduğuna değiniyoruzdur. Büyük veri setleri, farklı kaynaklardan gelen veri çeşitliliği ve hızla...
Kafka Connect Nedir?
Kafka Connect, Apache Kafka’nın tamamlayıcı bir parçasıdır ve diğer sistemleri Kafka ile entegre eder. Örneğin Kafka Connect, değişiklikleri bir veritabanından (source) Kafka’ya aktarmak ve buradan...
Delta Lake Temizliği ile Depolama Alanı Optimizasyonu
Herkese merhaba! Gittikçe artan veri hacimleriyle birlikte, verilerin depolanması, yönetilmesi konusundaki güçlüklerin de benzer oranda arttığını biliyoruz. Açık kaynaklı bir depolama katmanı olan olan Delta...
Ray: Python ile Dağıtık Veri İşleme
Ray, gerçek zamanlı veri işleme sistemleri ve yapay zeka araştırmalarının yapıldığı RISELab tarafından 2017’de başlatılan bir projedir. Apache 2.0 lisansına sahip olan Ray, açık kaynaklı...
Trino
Merhaba bu yazıda size Trino’dan bahsedeceğim. İlk olarak Trino’nun kısaca ne olduğuna bakalım ve ardından demo uygulaması yapalım. Trino Nedir? Trino, büyük veri analizi için...