Veri Bilimi Okulu

12-Factor App Prensipleri: Veri Odaklı Roller İçin Modern Bir Geliştirme Manifestosu

Loading

İster veri mühendisi, ister veri bilimci, makine öğrenmesi mühendisi veya veri analisti olun, yazdığınız kodun ve geliştirdiğiniz uygulamaların sağlam, ölçeklenebilir ve sürdürülebilir olması kritik öneme sahiptir. 2011 yılında Heroku’daki geliştiriciler tarafından ortaya atılan 12-Factor App (12 Faktörlü Uygulama) metodolojisi, tam da bu hedeflere ulaşmak için bir dizi ilke sunar.1 Bu metodoloji, web uygulamaları için tasarlanmış […]

Python dataclass

Loading

Veri sınıflarının Python’da nasıl çalıştığını ve neden geleneksel sınıflara göre daha avantajlı olduklarını hiç merak ettiniz mi? Bu blog yazısı, Python’daki veri sınıflarının (dataclasses) hızlı bir rehberini sunacak. Veri sınıflarını nasıl kullanacağınızı, beraberinde gelen özel özellikleri, geleneksel bir sınıf oluşturmaktan neden daha hızlı olduklarını ve verilerinizi modelleme konusunda size nasıl daha fazla işlevsellik sağladıklarını örneklerle […]

Veri Kalitesi ve Yapay Zeka: Veri Mühendisliğinin Önemi

Loading

Yapay zeka (AI) dünyası, son yıllarda inanılmaz bir hızla gelişiyor. Makine öğrenimi, yapay zeka, üretken yapay zeka (generative AI) ve artık agentic AI gibi yenilikçi teknolojiler, hayatımızın her alanında derin etkiler bırakıyor. Ancak, bu teknolojilerin başarısı, çoğu zaman göz ardı edilen bir faktöre bağlı: veri kalitesi. ve tabiki veri mühendisliği. Ne kadar gelişmiş bir algoritma […]

Yapay Zeka ve Demokrasinin Gizli Krizi: Orta Sınıfın Çöküşü Neden Hepimizi İlgilendiriyor

Loading

Yapay zeka devrimi hakkında konuşurken çoğumuz aynı kaygıları dile getiriyoruz: “İşimi kaybedecek miyim? Çocuklarım ne iş yapacak? Robot beni değiştirecek mi?” Ancak bu endişeler, aslında çok daha büyük bir krizin sadece görünen yüzü. Yapay zeka sadece orta sınıfın işini elinden almıyor; aynı zamanda dolaylı olarak orta sınıfı zayıflatarak demokrasinin de altını oyuyor. Çünkü işleyen, sağlıklı […]

Model Context Protocol (MCP) Nedir?

Loading

Yapay zeka (Artificial Intelligence – AI) dünyası son birkaç yılda inanılmaz bir dönüşüm geçirdi. Büyük dil modelleri (Large Language Models – LLM) artık etkileyici metinler üretiyor, karmaşık problemleri çözüyor ve yaratıcı içerikler oluşturabiliyor. Ancak bu modellerin kritik bir sınırlaması var: kendi eğitim verileriyle sınırlı kalıyorlar ve dış dünyadaki gerçek zamanlı verilere veya araçlara erişimde ciddi […]

ML ve AI için Python Öğrenme Yol Haritası

Loading

Makine öğrenimi (ML) ve yapay zeka (AI), teknoloji dünyasının en hızlı büyüyen alanları arasında yer alıyor. Teknik olmayan bir geçmişten gelenler ya da bu alanlarda kariyer yapmayı hedefleyenler için Python, öğrenilmesi gereken temel programlama dilidir. Python’un sade sözdizimi, geniş kütüphane ekosistemi ve özellikle AI odaklı araçları (örneğin, LangChain, Hugging Face Transformers ve OpenAI API), onu […]

Apache Spark ile AWS RDS Veritabanına Bastion Host Üzerinden SSH Tunnel Kurarak Bağlanmak

Loading

Giriş Veri mühendisliği projelerinde, özellikle kurumsal ortamlarda canlı veriye doğrudan erişim yerine bastion host gibi geçit sunucuları üzerinden güvenli bağlantılar tercih edilir. Bu yazıda, bir SSH Tunnel yardımıyla lokalde çalışan Apache Spark ile AWS RDS veritabanına nasıl erişebileceğinizi adım adım göstereceğim. Bastion Host Nedir? Bastion host, bir diz üstü bilgisayarınız veya internete açık bir cihaz […]

Gerçekçi Bir Yapay Zeka Mühendisi (AI Engineer) Yol Haritası

Loading

Bir kavram popüler olunca fırsatı değerlendirmek isteyenler çok oluyor. Son zamanlarda yapay zeka dünyasında kariyer yapmak isteyenler için “sadece birkaç ayda AI Engineer (yapay zeka mühendisi) olun” vadeden birçok içerik internette dolaşıyor. Ancak bu işleri bilen ve tecrübeli olanlar, özellikle hedef büyük bir teknoloji şirketinde AI Mühendisi olmak ise, bunun için önemli bir zaman ve […]

Yeni Başlayanlar İçin Prompt Engineering

Loading

Merhaba! Bugün sizlerle yapay zeka dünyasının en heyecan verici becerilerinden biri olan prompt engineering’i (istem mühendisliği) konuşacağız. ChatGPT, Claude, Gemini gibi yapay zeka araçlarını kullanırken bazen istediğiniz cevabı alamadığınız oldu mu? İşte size “prompt engineering nedir?” cevabı. Prompt Engineering Nedir? Prompt engineering, büyük dil modellerine (LLM) sağlanan komutları, girdi sorgularını veya talimatları tasarlamak ve yapılandırmak […]

Yapay Zeka Mühendisliğinin (AI Engineering) Yükselişi

Loading

Yapay zeka alanında yaşanan gelişmeler, iş dünyasında daha önce benzeri görülmemiş bir değişime yol açıyor. Bir zamanlar yalnızca bilim kurgu filmlerinde gördüğümüz teknolojiler artık günlük hayatımızın ve iş dünyasının vazgeçilmez bir parçası haline geldi. Bu dönüşümün merkezinde ise AI Engineer (Yapay Zeka Mühendisleri) yer alıyor. Yakın zamana kadar 21. yüzyılın ek seksi mesleği datascientist olarak […]

DocLing: Yapay Zekada Belgelerle Çalışmak

Loading

Docling sahnede. Yapay zeka ve büyük dil modellerinin (LLM) en büyük gücü, kendi verilerimizi kullanabilme imkanı sunmalarıdır. Ancak, bir çok veri PDF, Word (docx) veya PowerPoint gibi formatlarda tutulduğu için bunları adam akıllı yapay zeka ile buluşturmak zor bir iş. Veri var, yapay zeka var ama o Yeşilçam buluşması bir türlü gerçekleşmiyor. Çünkü bu tür […]

LangChain ve Qdrant ile Vector Store Kullanımı: Türkçe Bir Rehber

Loading

Merhaba! Bu blog yazısında, LangChain ve Qdrant kullanarak nasıl bir vektör veritabanı oluşturabileceğinizi ve bu sistemi soru-cevap uygulamaları gibi senaryolarda nasıl kullanabileceğinizi adım adım açıklayacağım. docker-compose.yaml dosyası ile bir qdrant konteyner ayağa kaldıracağız ve langchain ile vektör veri tabanı oluşturup, içine soru cevap dokümanı indeksleyip sorgulayacağız. Neden LangChain ve Qdrant? LangChain, doğal dil işleme (NLP) […]

Airflow-GitHub Entegrasyonu: GitHub DAG Dosyalarınız Anında Airflow’da

Loading

Aralık 2025 güncelleme: Airflow 2 kullanıyorsanız devam edin. Airflow 3 ile bu işin daha doğal ve kolay bir yolu var artık. Bu yazıda Airflow-Github veri akışları (data pipelines) orkestrasyonu için sektörde yaygın olarak kullanılan bir ikili. Python ile yazdığınız DAG dosyaları Airflow ile buluştuğunda Airflow bu DAG dosyalarında sizin kendisine ne iş yaptırmak istediğinizi anlıyor […]

Linux Container SSH Bağlantısı

Loading

Bu yazıda özetle bir docker konteynerden diğerine ssh (container to container ssh) ile bağlanma örneği yapacağız. İş hayatında sık sık bir uzak linux sunucuya bağlanıyoruz. Bu bağlantı için SSH protokolünü kullanıyoruz. Teknik olarak SSH (Secure Shell), bir ağ üzerinden iki bilgisayar arasında güvenli bir şekilde veri alışverişi ve uzaktan oturum açma imkanı sağlayan bir kriptografik […]

Spark ML Custom Transformer Yazma

Loading

Bu yazımızda Spark ML Custom Transformer yazacağız. Spark’ın makine öğrenimi kütüphanesi (MLlib), veri bilimcilere ve makine öğrenimi mühendislerine zengin bir araç seti sunuyor. Model geliştirme çalışmalarında bilhassa özellik mühendisliği (feature engineering) aşamasında çok yoğun veri ön hazırlık süreçleri oluyor.  Bu çalışmalarda  PySpark’ın pyspark.ml.feature kütüphanesi, makine öğrenimi modelleriniz için ham verileri anlamlı ve kullanışlı özelliklere (feature) […]

Scikit-Learn Spark Deployment

Loading

Makine öğrenimi modelleri, günümüzde birçok alanda veri analizinin ve tahminlerin temelini oluşturuyor. Scikit-learn ise en başından beri Python ile yapılan çalışmalarda, basit arayüzü ve geniş algoritma yelpazesi ile ML çalışmalarında en yaygın kütüphane. Ancak, scikit-learn  ile büyük veri kümelerinde çalışmak, performans ve ölçeklenebilirlik açısından bazı zorluklar doğurabiliyor. Bu noktada, büyük veri üzerindeki başarısıyla meşhur Apache Spark […]

Polars ClickHouse Veri Okuma ve Yazma

Loading

Ham verinin düzenli olarak temizlenerek analitik ortamlarda istiflenmesi ve buradan da analiz, görselleştirme ve yapay zeka çalışmalarının yapılması hemen hemen her işletmede standart, temel ve önemli bir ihtiyaç haline geldi. Temiz, düzgün ve güvenilir verinin biriktiği ortamların başında veri ambarları geliyor. Veri işlemek ve analiz etmek için ise bir çok araç mevcut. ClickHouse veri ambarının […]

Docker ile Kolay ve Hızlı Apache Airflow Kurulumu

Loading

Veri mühendisliği, analitik ve makine öğrenmesi projelerinde, iş akışlarını yönetmek ve otomatikleştirmek için güçlü bir araç arıyorsanız, Apache Airflow ilk seçeneklerden birisi olacaktır. Airflow, karmaşık veri işleme görevlerini planlamanıza, yürütmenize ve izlemenize olanak tanıyan popüler bir açık kaynaklı platformdur. Ancak, Airflow’u öğrenmek isteyenlerin Airflow kurmaları gerekiyor. Klasik yöntemlerle (işletim sistemi üzerinde bir servis olarak) kurmak […]

Docker ile Hızlı ve Kolay PySpark ve Jupyter Kurulumu

Loading

Büyük veri analizi, günümüzün veri odaklı dünyasında giderek daha önemli hale geliyor. PySpark ve Jupyter Notebook, bu alanda en popüler araçlardan ikisi. PySpark, büyük veriyi işlemek için son derece hızlı ve ölçeklenebilir bir araçken, Jupyter Notebook ise PySpark ile etkileşimli veri analizi ve görselleştirme çalışmaları için sade ve konforlu bir ortam sunar. Ancak, PySpark ve […]

Apache Spark, Minio, Nessie Catalog, Iceberg ve Docker ile Lakehouse Örneği

Loading

Veri ambarı (data warehouse) ile veri gölünün (data lake) en iyi yönlerini birleştirerek bizlere ilişkisel veri tabanı konforunu büyük veri üzerinde sunan lakehouse çözümleri gün geçtikçe hayatımızdaki yerini alıyor. Bugün burada tamamen açık kaynak kodlu bileşenleri kullanarak docker üzerinde basit bir lakehouse örneği yapacağız. 1. Altyapıyı Oluşturan Bileşenler 1.1. Nessie Nessie veri gölleri için transactional […]

Password Requirements:

  • At least 8 characters
  • At least 1 lowercase letter
  • At least 1 uppercase letter
  • At least 1 numerical number
  • At least 1 special character