PySpark

Spark MLlib Kullanarak Kümeleme Analizi

Makine öğrenmesi (machine learning) algoritmalarını kabaca ikiye ayırmak mümkündür: denetimli (supervised) ve denetimsiz (unsupervised). Her iki yöntemin de kullanım amaç ve yerleri farklı farklıdır.  Bu yazımızda denetimsiz yöntemin en yaygın algoritması K-Ortalamaları (K-Means), iris veri setini ve Spark MLlib kütüphanesini kullanarak …

Daha Fazlası >>

Python Listesinden Spark RDD ve Dataframe Oluşturmak

Zaman zaman Python listesinden PySpark Dataframe oluşturmamız gerekebiliyor. En azından benim gerekiyor. Bu kısa yazımızda bunu gerçekleştireceğiz. Önce 9 insanın aylık ücretlerini temsil eden Python listemizi oluşturuyoruz. Bu çalışmada Spark 1.6 kullanılmıştır. ucret =[2000.00,3750.00,1000.00,4800.00,4800.00,0.00,4800.00,0.00,14500.00] Python listesinden Spark RDD oluşturalım ucretRDD …

Daha Fazlası >>

PySpark ile Spark Dataframe İşlemleri

Bölüm 1 Bu yazımızda Spark’ın Dataframe’inden bahsedeceğim. Spark Dataframe (nedense Spark Tablosu diyesim var 🙂 )  yapısını ilişkisel veri tabanlarındaki tablolara benzetebiliriz; satırlar, sütunlar ve şema. Spark Dataframe; Python, R, Pandas vb. dillerdeki dataframe benzese de en büyük farkı dağıtık …

Daha Fazlası >>