Apache Spark, Minio, Nessie Catalog, Iceberg ve Docker ile Lakehouse Örneği
Veri ambarı (data warehouse) ile veri gölünün (data lake) en iyi yönlerini birleştirerek bizlere ilişkisel veri tabanı konforunu büyük veri üzerinde sunan lakehouse çözümleri gün...
![Erkan ŞİRİN](https://secure.gravatar.com/avatar/ba39dcf60ee4fb6ade9b7f197f7ef698?s=50&d=https%3A%2F%2Fwww.veribilimiokulu.com%2Fwp-content%2Fuploads%2F2020%2F12%2Fveribilimiokulu_logo.png&r=g)
![](https://www.veribilimiokulu.com/wp-content/uploads/2023/12/spark-nessie-icaberg-lakehouse-kapak-960x640-1-375x250.jpg)
Apache Spark, Minio, Nessie Catalog, Iceberg ve Docker ile Lakehouse Örneği
Veri ambarı (data warehouse) ile veri gölünün (data lake) en iyi yönlerini birleştirerek bizlere ilişkisel veri tabanı konforunu büyük veri üzerinde sunan lakehouse çözümleri gün...
![Erkan ŞİRİN](https://secure.gravatar.com/avatar/ba39dcf60ee4fb6ade9b7f197f7ef698?s=50&d=https%3A%2F%2Fwww.veribilimiokulu.com%2Fwp-content%2Fuploads%2F2020%2F12%2Fveribilimiokulu_logo.png&r=g)
![](https://www.veribilimiokulu.com/wp-content/uploads/2023/07/vacuum-cover-375x250.jpg)
Delta Lake Temizliği ile Depolama Alanı Optimizasyonu
Herkese merhaba! Gittikçe artan veri hacimleriyle birlikte, verilerin depolanması, yönetilmesi konusundaki güçlüklerin de benzer oranda arttığını biliyoruz. Açık kaynaklı bir depolama katmanı olan olan Delta...
![Elif Sinem AKTAŞ](https://secure.gravatar.com/avatar/5cbfb66c5d7d1c376f770e3b07a6a470?s=50&d=https%3A%2F%2Fwww.veribilimiokulu.com%2Fwp-content%2Fuploads%2F2020%2F12%2Fveribilimiokulu_logo.png&r=g)
![](https://www.veribilimiokulu.com/wp-content/uploads/2023/02/spark_runtimes_kapak_960x640-375x250.png)
Apache Spark’ı Hangi Ortamlarda Kullanabiliriz?
Apache Spark büyük veri ve analitik dünyada çok popüler bir araç. Spark’ı bir çok farklı amaçla kullanabileceğimiz gibi bir çok farklı ortamda çalıştırabiliriz. Bu yazımızda...
![Erkan ŞİRİN](https://secure.gravatar.com/avatar/ba39dcf60ee4fb6ade9b7f197f7ef698?s=50&d=https%3A%2F%2Fwww.veribilimiokulu.com%2Fwp-content%2Fuploads%2F2020%2F12%2Fveribilimiokulu_logo.png&r=g)
![](https://www.veribilimiokulu.com/wp-content/uploads/2022/12/pexels-mikael-blomkvist-6476587-scaled.jpg)
Apache Spark, Apache Airflow, Delta Lake ve MinIO ile ETL Çalışması
Veri odaklı kuruluşlarda, çeşitli ham ve karmaşık verilerden içgörü elde etmek için gerektiğinde büyük miktarda verinin düzenlenmesi, basitleştirilmesi veya zenginleştirilmesi gerekir. ETL (Çıkart, Dönüştür, Yükle)...
![Elif Sinem AKTAŞ](https://secure.gravatar.com/avatar/5cbfb66c5d7d1c376f770e3b07a6a470?s=50&d=https%3A%2F%2Fwww.veribilimiokulu.com%2Fwp-content%2Fuploads%2F2020%2F12%2Fveribilimiokulu_logo.png&r=g)
![](https://www.veribilimiokulu.com/wp-content/uploads/2022/07/spark_window_functions_kapak_960x640-375x250.jpg)
Spark SQL Window Functions
Window functions SQL dünyasında yaygın olarak bilinen fonksiyonlar. SQL’de kullandığımız bir çok fonksiyonu Spark ile de kullanabiliyoruz. Bu yazımızda Spark Scala ve SQL söz dizimleriyle...
![Erkan ŞİRİN](https://secure.gravatar.com/avatar/ba39dcf60ee4fb6ade9b7f197f7ef698?s=50&d=https%3A%2F%2Fwww.veribilimiokulu.com%2Fwp-content%2Fuploads%2F2020%2F12%2Fveribilimiokulu_logo.png&r=g)
![](https://www.veribilimiokulu.com/wp-content/uploads/2021/08/spark_on_kubernetes_kapak_960x640-375x250.jpg)
Spark on Kubernetes
Merhabalar. Bu yazımızda bir Spark uygulamasını Kubernetes cluster üzerinde çalıştıracağız, yaygın adıyla Spark on Kubernetes. Bildiğimiz gibi Spark 2.3 sürümüne kadar sadece 3 cluster yöneticisi...
![Erkan ŞİRİN](https://secure.gravatar.com/avatar/ba39dcf60ee4fb6ade9b7f197f7ef698?s=50&d=https%3A%2F%2Fwww.veribilimiokulu.com%2Fwp-content%2Fuploads%2F2020%2F12%2Fveribilimiokulu_logo.png&r=g)
![](https://www.veribilimiokulu.com/wp-content/uploads/2021/08/spark_aws_s3_kapak_960x640-375x250.jpg)
Apache Spark AWS S3 Veri Kaynağı
Merhabalar. Bu yazımızda Apache Spark AWS S3 entegrasyonu yapacağız. Bu kapsamda bir Spark dataframe’i AWS S3’e nasıl yazacağımızı ve S3’den Spark ile nasıl veri okuyacağımızı...
![Erkan ŞİRİN](https://secure.gravatar.com/avatar/ba39dcf60ee4fb6ade9b7f197f7ef698?s=50&d=https%3A%2F%2Fwww.veribilimiokulu.com%2Fwp-content%2Fuploads%2F2020%2F12%2Fveribilimiokulu_logo.png&r=g)
![](https://www.veribilimiokulu.com/wp-content/uploads/2021/06/deltalake_scd_type2_kapak_960x640-375x250.jpg)
Spark ve Delta Lake ile Büyük Veri Slowly Changing Dimension Type2
Bu yazımızda veri ambarı dünyasında boyut (dimension) tablolarında sıklıkla kullanılan bir güncelleme yöntemi olan slowly changing dimension örneğini Apache Spark ve Delta Lake ile yapacağız....
![Erkan ŞİRİN](https://secure.gravatar.com/avatar/ba39dcf60ee4fb6ade9b7f197f7ef698?s=50&d=https%3A%2F%2Fwww.veribilimiokulu.com%2Fwp-content%2Fuploads%2F2020%2F12%2Fveribilimiokulu_logo.png&r=g)
![](https://www.veribilimiokulu.com/wp-content/uploads/2021/05/apache_livy_server_kapak_960x640-375x250.jpg)
Spark İşini Cep Telefonundan Başlatmak: Apache Livy Server
Başlık çarpıcı geldi değil mi? İnanmazsınız ancak doğru. Spark işlerini genelde client kütüphanelerinin kurulu olduğu makinelerden, yani Spark’ın Hadoop’un nerede olduğundan haberdar ve konfigürasyonları yapılmış...
![Erkan ŞİRİN](https://secure.gravatar.com/avatar/ba39dcf60ee4fb6ade9b7f197f7ef698?s=50&d=https%3A%2F%2Fwww.veribilimiokulu.com%2Fwp-content%2Fuploads%2F2020%2F12%2Fveribilimiokulu_logo.png&r=g)
![](https://www.veribilimiokulu.com/wp-content/uploads/2021/05/spark-kafka-multiple-topic-kapak-960x640-1-375x250.jpg)
Spark Structured Streaming: Birden Fazla Kafka Topic’e Produce Etmek
Merhabalar. Apache Spark Structured Streaming yaygın kullanılan akan veri işleme platformlarından birisi. Elbette akan verinin işlendiği bir ekosistemde Apache Kafka da bir şekilde yerini alıyor....
![Erkan ŞİRİN](https://secure.gravatar.com/avatar/ba39dcf60ee4fb6ade9b7f197f7ef698?s=50&d=https%3A%2F%2Fwww.veribilimiokulu.com%2Fwp-content%2Fuploads%2F2020%2F12%2Fveribilimiokulu_logo.png&r=g)