Veri Bilimi Okulu

Pratik Bilgiler ve Pratik Komutlar: Elasticsearch

Loading

Merhabalar. Serinin bu yazısındaki ipuçları Elasticsearch ile ilgili olacak. Elasticsearch ile adres satırından nasıl sorgulama yapılır? Elasticsearch ile adres satırı sorguları nasıl pretty yazdırılır? Elasticsearch index listeleme Elasticsearch truncate index, delete all documents from Elasticsearch index Elasticsearch üzerinde SQL kullanabilir miyiz? Nasıl? Elasticsearch’te mevcut index’e bir alan eklemek: Adding a field on existing index on […]

Apache Spark Elasticsearch Entegrasyonu

Loading

Merhabalar. Bu yazımızda csv dosyasından okuduğumuz bir veri setini Elasticsearch’e bir index olarak yazacağız ve yazdığımız index’i Spark ile okuyacağız. 1. Giriş Apache Spark ve Elasticsearch büyük veri dünyasının en popüler araçlarından ikisi. Spark Elasticsearch ile harika işler çıkarabilirsiniz. Spark ile büyük veriyi işleyebilirken, Elasticserach ile büyük veriyi aranabilir, analiz edilebilir ve görselleştirilebilir bir şekilde […]

Python Kafka: Veri Yazma ve Okuma

Loading

Merhabalar, veri ile uğraşan hemen hemen herkes Kafka’ya veri yazıp Kafka’dan veri okumadıysa bile Kafka’nın adını mutlaka duymuştur. Bu yazımızda Python Kafka ile Kafka’ya mesaj gönderip Kafka’dan mesaj okuyacağız. İlk önce elle yazdığımız basit bir metni, daha sonrada pandas dataframe’i mesaj olarak gönderip okuyacağız. 1.Giriş Apache Kafka son dönemlerin en popüler kendi tabirleri ile “A […]

Anormallik Tespiti (Outlier Detection) Yöntemleri

Loading

Merhaba. Bu yazımda outlier detection Türkçe ifadesiyle aykırı gözlem (anomali), anormallik tespitinden bahsedeceğim. Yazının devamında aykırı, sıra dışı, anormal, outlier, anomaly, anomali kelimelerini benzer anlamlarda kullanıyor olacağım. Aykırı gözlem nedir? Grubbs[1]’a göre aykırı gözlem; “Aynı örneklem içindeki diğer gözlemlerden belirgin derecede farklı olan / sapma gösterendir“. Belli bir zamana kadar aykırılık tespitine veri ön işlemesinin […]

Pratik Bilgiler ve Komutlar: MongoDB

Loading

Merhabalar pratik bilgiler, pratik komutlar yazı dizimizin bu bölümü tamamen mongodb ile ilgili olacak. Python ile MongoDB’ye nasıl bağlanırım? MongoDB’de bulunan veri tabanlarını nasıl listelerim? MongoDB’de veri tabanı yaratmak veya seçmek MongoDB’de bir veri tabanındaki collection isimlerini listelemek MongoDB veritabanında yeni bir collection yaratmak MondoDB collection içinde kaç document (kayıt) var? MongoDB’de bir collection içine […]

Python Mongodb: Pandas Dataframe’i MongoDB’ye Yazmak

Loading

Merhabalar bu yazımızda Python Mongodb entegrasyonunu yapıp Python Pandas Dataframe verisini Python kullanarak MongoDB’ye yazacağız. MongoDB ile etkileşime geçmek için çok farklı dillere ait driver paketler yazılmış. Bu dillerden birisi de Python. Bu yazımızda Python’ın pymongo kütüphanesini kullanacağız. Bu kütüphane Python diliyle MongoDB’de bir şeyler yapmak isteyenler için yegane çözüm. Bu yazıyı takip etmek için […]

Pratik Bilgiler ve Komutlar-3

Loading

Merhaba “Pratik Bilgiler, Pratik Komutlar” yazı serisinin 3.’süne hoş geldiniz. Bu serinin amacı karşılaştığımız hata ver zorlukları pratik ve hızlı bir şekilde aşmak. Örneğin mysql root şifremi unuttum ya da bilmiyorum ne yapmalıyım? sorusunun cevabı “MySQL root şifresini nasıl sıfırlarız?” sorusunda. Python listesini filtrelemek Apache Spark Dataframe string timestamp tür dönüşümü MySQL root şifresini nasıl […]

Python ile Veri Bilimi Çalışma Ortamı Kurmak (Python Jupyter ve Paket Kurulumu)

Loading

Merhaba bu yazımızda veri bilimine yeni başlayanlar için başlangıç çalışma ortamını oluşturacağız. Amacımız python jupyter notebook kullanabilmek ve numpy, pandas, sklearn ve matplotlib gibi temel paketleri yüklemek. 1. Python yüklemek Python şuan 3.7.X sürümünde ancak ben biraz geriden takip etmenizi ve daha kararlı sürüm olan 3.6.X’i kullanmanızı öneriyorum. Kendim 3.6.8 kullanıyorum, bu yazıda da bu […]

IntelliJ IDEA ile Apache Spark Projesini Uzak YARN Cluster Üzerinde Çalıştırmak-1/2

Loading

1. Giriş Merhabalar. Uygulama geliştirirken geliştirme(dev), test ve canlı (prod) gibi farklı farklı ortamlar kullanırız. Farklı ortamlarda çalışırken bazı ayarlamalar yapmamız gerekir. Şayet hızlı bir şekilde uygulamayı çıkarayım, geliştirme, canlı vb. uğraşmayayım diyorsanız bu yazı size göre. Bu yazıda Windows bilgisayarımızı driver olarak kullanarak IntelliJ IDEA ile canlı Hadoop Cluster üzerinde kodlarımızı geliştirme esnasında çalıştıracağız. […]

IntelliJ IDEA ile Apache Spark Projesini Uzak YARN Cluster Üzerinde Çalıştırmak-2/2

Loading

Merhaba. Yazı serimizin ikincisine devam ediyoruz. Bir önceki ilk yazımızda konuya giriş yapmıştık. Hatırlayalım, amacımız Spark uygulamasını Windows bilgisayarımızda kurulu IntelliJ ile uzak hadoop cluster üzerinde geliştirmekti. IntelliJ ile devam ediyoruz. 4. IntelliJ Spark Uygulaması: Maven Projesi Oluşturmak Şimdi uygulamamızı yazmaya başlayacağız. Bunun için IntelliJ’i başlatalım. Intellij üzerinden yeni proje (Create New Project) diyoruz. Bir […]

SQL Sorgularının Python Pandas Dataframe Karşılıkları-3 (UPDATE, DELETE)

Loading

Merhaba serimizin üçüncü yazısında SQL update ve delete operasyonlarını pandas ile nasıl yaparız onu göreceğiz. Veri kaynaklarına ilk yazımızdan ulaşabilirsiniz. 1. UPDATE Verimizde bazı satırlarda meslek bilgisi boştu gelin onu güncelleyerek dolduralım. SQL UPDATE operasyonu tehlikeli bir iştir. Şayet filtreyi iyi ayarlamaz iseniz istenmeyen yerleri istenmeyen bilgilerle değiştirirsiniz. O yüzden ben UPDATE sorgusunda kullanacağım filtreyi […]

SQL Sorgularının Python Pandas Dataframe Karşılıkları-2 (GROUP BY, ORDER BY)

Loading

Merhabalar. Yaygın kullanılan SQL sorgularının Python pandas dataframe karşılıklarını bir örnek üzerinden paylaşmaya devam ediyoruz. Serimizin ilki olan bir önceki yazımızda SELECT ve WHERE cümlecikleri ile ilgili örnek yapmıştık. Bu yazıda kullanılacak veri kaynaklarına (sql ve pandas) ulaşmak için lütfen ilk yazıya müracaat ediniz. 1. GROUP BY GROUP BY özellikle veri keşfinde çok sık kullanılan […]

SQL Sorgularının Python Pandas Dataframe Karşılıkları (PANDAS SQL)-1 (SELECT, WHERE)

Loading

Merhabalar. Bu yazımızda yaygın kullanılan SQL sorgularının Python pandas dataframe karşılıklarını (Pandas SQL) bir örnek üzerinden paylaşmaya çalışacağım. Veri biliminin en zor ve meşakkatli aşaması veri hazırlığıdır. Hem SQL hem de pandas kendi alanlarında veri hazırlığında çok önemli rol oynarlar. Eğer bu ikisinden birini çok iyi bilmiyorsanız (Pythonistler için söylüyorum, sql yanındaki python değil R, […]

Pratik Bilgiler ve Komutlar-2

Loading

Scala’da boşluklardan kelimeleri ayırma Scala ile dosya nasıl okunur? Scala dosya okuma Scala ile dosyaya yazma işlemi Scala uygulamasına komut satırından argüman gönderme Bir dizinde kaç dosya var Python ile nasıl öğrenilir? Elasticsearch Curl Query Örneği Ubuntu üzerine sbt kurmak Ubuntu server üzerinde root kullanıcısına geçiş yapmak Jupyter notebook geri plan – jupyter arkaplan – jupyter […]

Pratik Bilgiler ve Komutlar-1

Loading

Merhaba pratik bilgiler ve pratik komutlar yazı dizisindeki amacımız herkese her an lazım olabilecek pratik bilgiler paylaşmaktır. Bu yazı dizisi oluşurken yine kendi ihtiyaçlarımdan yola çıktım. Çok sık veya seyrek ihtiyaç duyduğum bilgileri not aldım ve sizlere de faydalı olabileceğini düşündüm. Baştan sona bir bütün olarak belki okumazsınız ama muhtemelen arama motorları ile bu yazı […]

Python Pandas Dataframe’i Elasticsearch’e Yazmak

Loading

Merhabalar bu yazımızda Python Pandas Dataframe verisini Python kullanarak Elasticsearch’e yazacağız. Şükür ki Python çok gelişmiş ve zengin bir dil. Birileri biz kullanalım diye kütüphane yazmış, biz de bunu kullanarak dataframe’i Elasticsearch’e yazacağız. Bu yazıyı takip etmek için bazı ön koşullarımız olacak. Elasticsearch 7.9.0 kurulu ve 9200 portundan erişilebilir durumdadır. Örneğin, benim elasticsearch sunucum aşağıdaki […]

Sık Kullanılan Hadoop HDFS Komutları

Loading

Giriş Merhabalar bu yazımızda en sık kullanılan Hadoop hdfs komutlarına örnekler vereceğiz. Öncelikle belirtmem gerekir ki nasılki linux dünyasının süper kullanıcısı root ise hdfs dünyasının da süper kullanıcısı hdfs kullanıcıdır. Komutlar içinde sık sık hdfs kullanacağız. Bu hdfs’lerin bazısı kullanıcı bazısı da komuttur. Lütfen karıştırmayalım. Erişim yetkisi hatası almamak adına komutların başında bazen sudo -u hdfs […]

Python Pandas ile Aynı Anda Birden Fazla CSV Dosyasını Okumak

Loading

Bazen bir dizin içindeki tüm csv uzantılı dosyaları okuyup tek bir dataframe yapmak isteyebiliriz. Apache Spark bunu rahatlıkla yapabilirken pandas read_csv bunu tek başına yapamıyor maalesef. Basit okumada mutlaka csv uzantılı dosya ismini belirtmemiz gerekiyor. Aşağıda dosya ismini belirtmeden bir dizindeki csv dosyalarını okuyup tek bir pandas dataframe yapma ile ilgili bir örnek paylaşacağım. Ancak […]

Docker Sık Kullanılan Komutlar-2

Loading

Merhabalar serinin 2. yazısında sık kullandığım docker komutlarını eklemeye devam ediyorum. İlk yazıya buradan erişebilirsiniz. Docker Network Kavramı Docker Container IP Adresini Öğrenmek Docker Network (Sanal Ağ) Oluşturmak Docker Network Listeleme Docker Network Bilgilerini İnceleme Çalışan Bir Docker Container’ı Bir Network’e Bağlamak Docker Container Adını Değiştirmek Askıda Kalan Imajları Silmek Docker’ı sudo ile çalıştırmaktan kurtulmak […]

CentOS7’de yum ile yüklenen java home işlemleri

Loading

Java nereye yüklü JAVA_HOME neresi zaman zaman siz de karıştırıyor olabilirsiniz. Bu yazıda CentOS7 üzerine yum ile yüklenen java’nın home diznini öğrenecek ve kalıcı olarak JAVA_HOME’u set edeceğiz. java home dizini: Kalıcı olarak set etme: en alt satıra Ctrl+O -> Enter -> Ctrl+X Ayarların geçerli olması için: Ayarlamanın kontrolü: 0

Password Requirements:

  • At least 8 characters
  • At least 1 lowercase letter
  • At least 1 uppercase letter
  • At least 1 numerical number
  • At least 1 special character