Python Listesinden Spark RDD ve Dataframe Oluşturmak

Erkan ŞİRİN 20 Mayıs 2017 PySpark, Python, Spark 0 2416 195 kelime - 1 dakika69

Bu yazıya puan ver

(No Ratings Yet)

Zaman zaman Python listesinden PySpark Dataframe oluşturmamız gerekebiliyor. En azından benim gerekiyor. Bu kısa yazımızda bunu gerçekleştireceğiz. Önce 9 insanın aylık ücretlerini temsil eden Python listemizi oluşturuyoruz. Bu çalışmada Spark 1.6 kullanılmıştır.

ucret =[2000.00,3750.00,1000.00,4800.00,4800.00,0.00,4800.00,0.00,14500.00]

Python listesinden Spark RDD oluşturalım

ucretRDD = sc.parallelize(ucret)

Kontrol edelim

ucretRDD.take(9)

[2000.0, 3750.0, 1000.0, 4800.0, 4800.0, 0.0, 4800.0, 0.0, 14500.0]

Şema oluşturalım. Spark Dtaframe ile RDD arasındaki en büyük farkalrdan birisi Dataframe’in bir şemaya sahip olmasıdır. Yani en basit anlamıyla sütun ismi ve veri türünün tutulduğu bir veri yapısı şema olarak kullanılmaktadır. Biz RDD’den dataframe oluştururken bu şemayı da parametre olarak kullanmak zorundayız.

from pyspark.sql.types import StructType
from pyspark.sql.types import StructField
from pyspark.sql.types import FloatType

schema = StructType([StructField("maas", FloatType(), True)])

Şemayı oluşturduk. Listemiz tek sütuna dönüşeceği için nitelik ismine maas dedik.

ucretDF = sqlContext.createDataFrame(ucretRDD, schema)
ucretDF.printSchema()

root
 |-- maas: float (nullable = true)

Gördüğümüz gibi ucretDF adında bir dataframe oluşturduk. Kontrol edelim:

type(ucretDF)

pyspark.sql.dataframe.DataFrame

ucretDF.show()

Erkan SIRIN

python list to RDD python listesinden dataframe oluşturmak

Yazar Hakkında

Toplam 177 yazı

Erkan ŞİRİN

10 yılı aşkın süredir yurtiçi ve yurtdışında sektörde büyük veri mühendisliği, platform yönetimi ve makine öğrenmesi ile ilgili çalışmalar yürütmekte ve aynı zamanda birçok kurum ve şirkete danışmanlık ve eğitimler vermektedir. Çalışma alanları: Data ve MLOps platformları, gerçek zamanlı veri işleme, değişen veriyi yakalama (CDC) ve Lakehouse.

Tüm yazılarını gör

Şunlar da ilginizi çekebilir