Veri Bilimi Okulu

Kafka listeners ve advertised.listeners

Loading

Bu kafka listeners ve advertised listeners gerçekten gıcık bir konu. Kafka’ya bağlanamayığ saç baş yoldurabiliyor bazen. Şimdiye dek Kafka konfigürasyonunda listeners ve advertised.listeners‘ı en az bir kez Google’da aratmış olabilirsin ama artık yapay zekalara soruyorsunuzdur muhtemelen YZ da bu işi çözüyordur ve tıkır tıkır Kafka’ya bağlanıyorsunuzdur. peki YZ’nin çözdüğünü siz çözdünüz mü? Çözemediyseniz bu iki […]

16 Çeşit RAG ve LangChain ile Hangilerini Hayata Geçirebiliriz?

Loading

Selam! Bugün biraz heyecanlı bir konuya giriyoruz. RAG (Retrieval-Augmented Generation) dünyası son bir yılda öyle bir patladı ki, klasik “vektör veritabanından chunk çek, LLM’e ver” mantığı çoktan ilkokul seviyesinde kaldı. Turing Post’un derlediği listede karşımıza çıkan 16 farklı yeni RAG çeşidini[1] tek tek inceleyeceğiz, sonra da “Peki ben bunları LangGraph ya da LangChain ile yapabilir […]

Veri Ambarı Star Şemada Bridge Table

Loading

Veri ambarı (data warehouse) modellemesinde bir gün mutlaka şu sorunla karşılaşırız: tek bir fact satırı, birden fazla boyut değerine bağlanmak istiyor. Bir hasta ziyaretinin birden çok tanısı vardır, bir banka hesabının birden çok ortak sahibi olabilir, bir öğrenci birden çok ana dalda okuyabilir, bir makaleyi birden çok yazar yazabilir. Klasik yıldız şeması (star schema) ise […]

Pandas DataFrame’lerini SQL ile Sorgulamak: DuckDB, query() ve Ötesi

Loading

Önceki yazımızda pandas’ın veritabanlarıyla nasıl konuştuğunu (ADBC sürücüleri) gördük. Peki ya tersi? Elimizde zaten bir DataFrame var ve onu doğrudan SQL ile sorgulamak istiyoruz — filtreleme (filtering), dönüştürme (transformation), toplulaştırma (aggregation), birleştirme (join). Bu mümkün mü? Hem de fazlasıyla. Bu yazıda pandas sql kullanımı konusunda mevcut yolları öğreneceğiz, hangisinin hangi durumda en iyi olduğunu göreceğiz […]

Pandas SQL: ADBC (Arrow Database Connectivity)

Loading

Eğer veri analizinde pandas ile SQL veritabanları arasında köprü kuran biriyseniz, muhtemelen pd.read_sql() ve df.to_sql() çağrılarınızın kaplumbağa hızında çalıştığı, hatta veri tiplerinin (data types) yolda kaybolduğu anlar yaşamışsınızdır. İyi haber: pandas 2.2 ile birlikte gelen ADBC (Arrow Database Connectivity) sürücü desteği, bu hikayeyi tamamen değiştiriyor [1][2]. Bu yazıda yeni özelliği baştan sona inceleyeceğiz, neden bu […]

Apache Spark’ı Kubernetes Üzerinde Çalıştırmak: Sıfırdan Canlı Ortama Tam Rehber

Loading

Eğer büyük veri (big data) dünyasının içindeysek, Apache Spark’ın adını mutlaka duymuşuzdur. Yıllardır YARN üzerinde, standalone modda veya Mesos ile çalıştırdığımız bu güçlü dağıtık hesaplama motorunu (distributed computing engine) artık Kubernetes üzerinde, hem de “native” yani yerel olarak çalıştırabiliyoruz. Spark 2.3 ile başlayan bu yolculuk, 2026 yılında Spark 4.1’e ve Apache vakfının resmi Spark Kubernetes […]

DeepAgent Nedir?

Loading

Son iki yılda yapay zeka dünyasında en çok konuşulan konulardan biri “ajan” (agent) mimarileri oldu. Claude Code, Deep Research, Manus gibi uygulamalar, büyük dil modellerinin (Large Language Models – LLM) artık sadece soru cevaplayan değil, planlayan, araştıran, kod yazan, dosya oluşturan, hatta kendi içinde başka alt ajanları çalıştırabilen sistemler haline geldiğini bize gösterdi [1][2]. İşte […]

MCP ve LangChain ile Randevu Asistanı Oluşturmak

Loading

Diş kliniğinin resepsiyonunda çalıştığınızı hayal edin. Telefon çalıyor, hasta randevu istiyor. Siz ajandayı açıyor, boş slotu buluyor, hastanın adını yazıyor, e-posta gönderiyorsunuz. Gün içinde bunu 30-40 kez tekrar ediyorsunuz. Peki bütün bunları doğal dilde — “Fatma Hanım’a cuma 14:00’e temizlik için randevu ver” der gibi — konuşarak yapabilseydik? Hem de Google Takvim (Google Calendar) ile […]

Kubernetes RBAC Nedir?

Loading

Bu yazıda Kubernetes dünyasının en kritik güvenlik konularından biri olan Kubernetes RBAC (Role-Based Access Control — Rol Tabanlı Erişim Kontrolü) hakkında konuşacağız. Eğer bir Kubernetes Cluster yönetiyorsanız ya da kullanıyorsanız, bu yazı tam size göre. RBAC’ı birlikte öğreneceğiz, parçalarına ayıracağız ve sonunda “aa bu kadarmış!” diyeceksiniz. Hazırsanız başlıyoruz! Önce Sahneyi Kuralım: kubectl apply Dediğimizde Ne […]

Gözlemlenebilirlik (Observability) Nedir?

Loading

Modern yazılım dünyasında sürekli duyduğumuz ama tam olarak ne anlama geldiğini kavramakta zorlandığımız kavramlardan biri var: Gözlemlenebilirlik (Observability). Eğer bu terimi ilk kez duyuyorsanız veya teknik jargonlar arasında kaybolmuş hissediyorsanız, endişelenmeyin. Bu yazıda gözlemlenebilirliği en sade haliyle, gerçek hayattan örneklerle anlatacağız. Birlikte öğreneceğiz, keşfedeceğiz ve bu kavramı zihnimize iyice yerleştireceğiz. Hazırsanız, başlayalım! Gözlemlenebilirlik Tam Olarak […]

Prometheus Nedir? Açık Kaynak İzleme Aracı

Loading

Merhaba arkadaşlar! Bugün sizlerle birlikte DevOps ve bulut dünyasının en popüler izleme (monitoring) araçlarından biri olan Prometheus‘u inceleyeceğiz. Eğer altyapınızı, uygulamalarınızı ve servislerinizi gerçek zamanlı olarak takip etmek istiyorsanız, Prometheus doğru seçim olabilir! Prometheus’a Giriş: Neden Bu Kadar Popüler? Prometheus, açık kaynaklı bir izleme (monitoring) ve uyarı (alerting) araç takımıdır (toolkit). İlk olarak 2012 yılında […]

Airflow Spark Kubernetes: Spark Uygulamasına Dışarıdan Argüman Göndermek

Loading

Bu yazıda Airflow, Spark, Kubernetes ile çalışan veri mühendisleri için oldukça pratik bir konuyu ele alacağız: Kubernetes üzerinde çalışan bir Apache Airflow ortamından, Spark uygulamalarına dinamik olarak argüman göndermeyi gerçek kod örnekleriyle birlikte inceleyeceğiz. Eğer siz de modern bir data lakehouse mimarisi kuruyorsanız ve iş akışlarınızı orkestre etmek için Airflow kullanıyorsanız, bu yazı tam size […]

Python’da HTTP İstemci Kütüphaneleri: Requests vs AIOHTTP vs HTTPX

Loading

Giriş: Neden HTTP İstemcileri Bu Kadar Önemli? Veri mühendisliği (data engineering) dünyasında günümüzün hemen her veri akış hattı (data pipeline) bir noktada dış API’larla konuşmak zorunda kalıyor. İster bir REST API’den veri çekiyor olalım, ister bir webhook (web kancası) dinliyor olalım, isterse de mikroservisler (microservices) arasında veri taşıyor olalım — HTTP istekleri (HTTP requests) işimizin […]

Data Contracts (Veri Sözleşmeleri) Nedir?

Loading

Sabah 08:30. Kahveni henüz almışsın, bilgisayarı açıyorsun. Slack’te kırmızı bildirimler, e-postada patron mesajları. Dashboard (gösterge paneli) açılmıyor ya da en kötüsü açılıyor ama rakamlar saçma. ETL gece sessiz sedasız hata alıp durmuş. Tablolar boş. Ve patronun sana bakışı şunu söylüyor: “Bu raporlara hiç güvenmeyelim mi?” Bu manzara veri mühendisliği dünyasında o kadar yaygın ki, neredeyse […]

AI Mühendisliği Yolunda Kaçınılması Gereken 5 Kritik Hata

Loading

AI mühendisliği (AI Engineering) şu an en heyecan verici kariyer fırsatlarından biri. LinkedIn’in 2025 raporuna göre, “AI Engineer” platformdaki en hızlı büyüyen iş unvanı ve son üç yılda diğer tüm teknoloji rollerini geride bırakmış durumda [1]. Ancak bu alanda ilerlemek isteyenlerin çoğu, uzun süre çalışmalarına rağmen somut hiçbir şey elde edememekten şikayetçi. Bu yazıda, AI […]

FastAPI CORS

Loading

Eğer bir web uygulaması geliştirirken tarayıcı konsolunda şu hatayı gördüysen, muhtemelen tarayıcı CORS ayarlarına takıldın demektir. Geliştirici olarak bu sorunu nasıl çözersin? Bu yazıda CORS’un ne olduğunu, neden var olduğunu ve FastAPI’de nasıl çözeceğimizi birlikte öğreneceğiz. İsmi Çekerek fırlatma rampasından Mars’a gönderdiğimiz uzay robotu adı gibi gelebilir ama merak etme, düşündüğün kadar karmaşık değil! CORS […]

GitHub’ı Docker Image Deposu Olarak Kullanma: GitHub Container Registry

Loading

Docker imajlarınızı nerede saklıyorsunuz? Docker Hub mu, AWS ECR mi, yoksa başka bir yerde mi? Peki ya size GitHub’ın kendi konteyner kayıt defteri (Container Registry) sunduğunu söylesem? Evet, doğru duydunuz! GitHub Container Registry (GHCR), Docker imajlarınızı doğrudan GitHub ekosisteminde saklamanıza ve yönetmenize olanak tanıyan güçlü bir araç. 💰 Peki Bu Ücretsiz mi? İşin en güzel […]

Apache Airflow 3 ile DAG Dosyalarını GitHub’dan Okuma (Airflow Github)

Loading

Selamlar! Nihayetinde Airflow DAG dosyalarını GitHub gibi uzak repolardan adam akıllı almamızı sağlayan özellik Apache Airflow 3 ile geldi: GitDagBundle. Daha öncede Airflow Github entegrasyonu gibi DAG dosyalarını dışarıdan bir yerden alıp getirmek için göbeğimiz çatlıyordu. GitSync gibi çözümler kullanıyorduk. Artık Git uzak repoları ve Amazon S3’ten alıp getirmek daha kolay. Bu yazıda GitHub örneği […]

Apache Airflow 3 Hakkında Mutlaka Bilmeniz Gereken 10 Kritik Değişiklik

Loading

Apache Airflow 2’den 3’e Geçiş Rehberi | Son güncelleme: Aralık 2025 Merhaba değerli veri mühendisleri (data engineers)! Bugün sizlerle veri dünyasındaki en heyecan verici gelişmelerden birini konuşacağız: Apache Airflow 3. Nisan 2025’te yayınlanan bu sürüm (release), Airflow tarihindeki en büyük güncelleme olarak kayıtlara geçti [1]. 2020’den bu yana ilk büyük sürüm (major release) olan Airflow […]

LangChain Kısa ve Uzun Süreli Bellek (LangChain Short and Long Term Memory)

Loading

Yapay zeka ajanlarıyla çalışırken en sık karşılaşılan sorunlardan biri “hafıza eksikliği” problemidir. Bir sohbet robotuyla (chatbot) konuştuğunuzu düşünün: ona adınızı söylüyorsunuz, birkaç mesaj sonra “Adın neydi?” diye sorduğunuzda ise hiçbir fikri olmuyor. Bu sorunu ChatGPT, Gemini, Claude ile pek yaşamamışsınızdır. Peki o zaman bunun neden tartışıyoruz. Şunun için; bunlar milyar dolarlık bebekler ve sizin müşterileriniz […]