Google BigQuery’e Giriş

VBO okuyucuları merhabalar!

Bu yazımda sizlere Google Bigquery’nin ne olduğu, nasıl kullanılabileceği hakkında pratik ve özet bilgiler vereceğim. Keyifli okumalar dilerim.

Daha doğru kararlar verebilmek için veriye olan ihtiyacımız gün geçtikçe artmakta. Kurumsal kararlarda hatta kişisel kararlarımızda bile daha çok veriden faydalanıyoruz. ”Büyük veri” dediğimiz konuya burada değinmekte fayda var. Literatür tanımlamalarını es geçip biraz pazarlama & müşteri analitiği açısından örneklemek istiyorum. Denk geldiğim sektörler ve çevremden dinlediğim kadarıyla, genel hatlarıyla kurumlarda sipariş, müşteri tabloları ve bunların genişletilmiş versiyonları tutuluyor. Bazı şirketlerde bu veriler yeterli oluyor ve üzerinden çeşitli pazarlama & kampanya çalışmaları gerçekleştiriliyor. Ancak zamanla, bunun yetmediğini anlayan şirketler farklı verilere bakıp analizler ya da analitik çalışmalar gerçekleştirmeye yöneliyor. Durum böyle olunca, daha çok veri depolama konusu bir problem haline gelmeye başlıyor. GB (gigabyte) seviyelerindeki tablolar TB (terabyte) seviyelerine çıkıyor ve kurumlar için bulut çözüm (Cloud) arayışları bu durumda başlıyor.

Bulut çözüm (Cloud) nedir? Bigquery’den bahsedecektik, buraya nasıl geldik?

Burada doğru tanımlamalar yapabilmek adına bazı kaynaklardan faydalandım. Yazının sonunda belirttiğim kaynakları bu konunun meraklıları inceleyebilirler. “Bulut”, internet üzerinden erişilen sunucuları ve bu sunucularda çalışan yazılım ve veritabanlarını ifade eder. Bulut sunucuları tüm dünyadaki veri merkezlerinde bulunur. Bulut bilişim kullanarak kullanıcılar ve şirketlerin fiziksel sunucuları kendileri yönetmeleri veya kendi makinelerinde yazılım uygulamaları çalıştırmaları gerekmez. Bu şekilde çok daha kolayca veri yönetimi ve işlenmesi süreçleri yürütülebilir. Google, Amazon, Microsoft bu alanda ön plana çıkan şirketler. Google Cloud, Amazon Web Services (AWS), Microsoft Azure isimli bulut çözümlerini en iyi şekilde sunmaya çalışıyorlar. Bu yazı serisinde Google üzerinden ilerleyeceğiz. Diyelim ki verileri Cloud sistemine taşıdık, bu verileri sorgulamak ve işleyebilmek için Google Bigquery’e ihtiyacımız var. BigQuery, Google altyapısının işlem gücünü kullanarak hızlı SQL sorgularını etkinleştiren kurumsal bir veri ambarıdır.

Nasıl kullanılır?

Google’ın kendi tarifi şu şekilde: “Bulut Konsolu’nu veya klasik web kullanıcı arayüzünü kullanarak, bir komut satırı aracı kullanarak veya Java, .NET veya Python gibi çeşitli istemci kitaplıklarını kullanarak BigQuery REST API’sine çağrı yaparak BigQuery’ye erişebilirsiniz. BigQuery ile etkileşim kurmak için kullanabileceğiniz, verileri görselleştirme veya veri yükleme gibi çeşitli üçüncü taraf araçları da vardır.”

Biraz altyapısından bahsetmek gerekirse..

Bigquery’nin altyapısında Dremel sistemi kullanılmaktadır. Kendi akademik makalelerinde bahsettikleri üzere: “Dremel, salt okunur iç içe verilerin analizi için ölçeklenebilir, etkileşimli ve geçici bir sorgu sistemidir. Çok seviyeli yürütme ağaçlarını ve sütunsal veri düzenini birleştirerek, trilyon satırlık tablolar üzerinde toplama sorgularını saniyeler içinde çalıştırabilir. Sistem binlerce CPU ve petabayt veriye ölçeklendirilir ve Google’da binlerce kullanıcısı vardır. Yuvalanmış kayıtlar için yeni bir sütunsal depolama temsili sunuyoruz ve sistemin birkaç bin düğüm örneği üzerinde yapılan deneyleri tartışıyoruz. ” Ancak BigQuery, sadece Dremel’dan oluşuyor demek değil. Dremel sadece bir sorgu yürütme motoru, oysa Bigquery Borg (Kubernetes’in öncüsü) ve Colossus gibi ilginç teknolojilere dayanmaktadır. BigQuery veri işleme için Borg’la konuşur. Borg aynı anda binlerce makineden oluşan gerekli kümelerde yüzlerce Dremel sorgusu gerçekleştirmektedir. BigQuery verileri sütun biçiminde saklar bu şekilde, yüksek sıkıştırma oranı ve tarama verimi sağlar.

Binlerce düğümde çalışabilen ve sonucu getiren bir sorguyu çalıştırmak “ağaç mimarisi” kullanılarak gerçekleştirilir. Bir kök sunucu gelen sorguları alır, tablolardan meta verileri okur ve sorguları sunum ağacında bir sonraki seviyeye yönlendirir. Yaprak sunucular depolama katmanıyla iletişim kurar veya yerel diskteki verilere erişir.

Ne işe yarar?

Bigquery, SQL kullanımı ile verileri hızlıca ve kolayca sorgulayabilmemize olanak sağlarken, farklı özelliklerini de kullanımımıza sunuyor.  

  • Bigquery ML: BigQuery ML, veri bilimcilerinin ve veri analistlerinin, zaman içinde basit SQL kullanarak, doğrudan BigQuery içerisindeki veriler üzerinde ML modelleri oluşturmasına ve işlemesine olanak tanıyor.
  • DataStudio: Bigquery üzerinde işlenen verileri görselleştirmeye yarayan bir araçtır. Burada oluşturulan görsellerin kolayca güncellenmesine ve başkaları ile paylaşılabilmesine olanak sağlar.

Nasıl kullanılır?

Bigquery kullanımına başlamak için aşağıdaki link üzerinden giriş yapılabilir.

https://bigquery.cloud.google.com/

 

Sonrasında açık verisetleri üzerinden verileri incelemeye başlayabilirsiniz.

Örnek olarak Google Analytics veri setine Preview alanından bir göz atıyoruz. Buradaki veri incelemelerine bir sonraki yazımda değineceğim.

Peki, Google Analytics kullanıyoruz, ek olarak Google Bigquery’e ihtiyaç duymalı mıyız?

Şunu söyleyebiliriz ki, Google Analytics reklam, kampanya, pazarlama faaliyetlerini raporlamak, kullanıcı davranışlarını incelemek açısından güçlü bir araç. Ancak kullanıcı bazlı analizler yapabilmek, bu kullanıcıları segmentlemek ya da tahmin çalışmalarını yapabilmek adına Bigquery kullanma ihtiyacı doğuyor. Bu anlamda Google Analytics verileri ile Bigquery’de çalışmalar yapmakta fayda var. Bir sonraki yazımda Google Analytics verisini incelerken Bigquery’e ihtiyaç duyduğumuz örneklere değinmeyi de planlıyorum.

Bu yazı genel tanımlamalar ve “Bigquery nedir?” hakkında bir fikir vermesi açısından bir başlangıç yazısı oldu. Sonraki yazımda bir Google Analytics örnek verisi üzerinden nasıl sorgulamalar yapıyoruz, nelere dikkat ediyoruz gibi sorulardan bahsetmeyi planlıyorum. Umarım faydalı bir yazı olmuştur. Yorumlarınız için şimdiden teşekkürler!

Kaynakça:

https://www.cloudflare.com/learning/cloud/what-is-the-cloud/

https://cloud.google.com/bigquery/what-is-bigquery

Dremel: Interactive Analysis of Web-Scale Datasets

Yazar Hakkında
Toplam 9 yazı
Sena Merter Dereli
Sena Merter Dereli
Pazarlama & Müşteri Analitiği Araştırmacısı / n11.com'da Pazarlama Analitiği Yöneticisi
Yorumlar (Yorum yapılmamış)

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.

×

Bir Şeyler Ara