Veri Bilimi Okulu

dbt (DataBuildTool) ile Veri Analitiği Yolculuğunda Yeni Bir Dönem

Loading

Yeniden merhaba! Hemen hemen her yazımızda veri analitiğinin, karmaşık ve dinamik bir süreç olduğuna değiniyoruzdur.  Büyük veri setleri, farklı kaynaklardan gelen veri çeşitliliği ve hızla değişen iş gereksinimleri, veri analistlerine ve mühendislerine zorlayıcı bir ortam yaratıyor.  Geleneksel veri yapıları ve analitik yöntemler, bu hızlı değişime ayak uydurmakta zorlanırken ve süreçler zaman alıcı ve karmaşık hale […]

Apache Spark, Apache Airflow, Delta Lake ve MinIO ile ETL Çalışması

Loading

Veri odaklı kuruluşlarda, çeşitli ham ve karmaşık verilerden içgörü elde etmek için gerektiğinde büyük miktarda verinin düzenlenmesi, basitleştirilmesi veya zenginleştirilmesi gerekir. ETL (Çıkart, Dönüştür, Yükle) konsepti, büyük ölçekli verileri parçalara ayırır ve veri bilimcilerin/analistlerin verilere erişmesini, verileri analiz etmesini ve bunları iş zekasına dönüştürmesini kolaylaştırır.  Aynı zamanda ETL, belirli bir veri hattı (pipeline) türünü ifade […]

Apache Spark’a Giriş

Loading

Verinin her geçen gün katlanarak büyüdüğü günümüz dünyasında o veriyi işleyebilmenin ve veriden anlamlı çıkarımlarda bulunabilmenin önemi de katlanarak artmaktadır. Ancak terabaytlarca ve hatta petabaytlarca verimizin olduğu ve içinde ilişkisel veritabanlarının, NoSQL’lerin ve text, CSV ve JSON, parquet gibi yarı yapısal ve yapısal olmayan verilerin bulunduğu bir ekosistemde klasik yöntemlerle analiz yapmak çok zordur. İşte […]

PySpark Dataframe İşlemleri

Loading

Bölüm 1 Bu yazımızda Spark’ın Dataframe’inden bahsedeceğim. Spark Dataframe (nedense Spark Tablosu diyesim var 🙂 )  yapısını ilişkisel veri tabanlarındaki tablolara benzetebiliriz; satırlar, sütunlar ve şema. Spark Dataframe; Python, R, Pandas vb. dillerdeki dataframe benzese de en büyük farkı dağıtık işlemeye uygun olmasıdır. Spark Tablosunu; ilişkisel veri tabanı tabloları, Hive tabloları, Spark RDD ler gibi birçok […]

Password Requirements:

  • At least 8 characters
  • At least 1 lowercase letter
  • At least 1 uppercase letter
  • At least 1 numerical number
  • At least 1 special character