Anasayfa / Büyük Veri / Apache Spark ile Parquet Formatında Veri Okuma (Python)

Apache Spark ile Parquet Formatında Veri Okuma (Python)

Merhaba bu yazımızda parquet uzantılı bir dosyanın pyspark ile nasıl okunacağını göreceğiz. Bu yazıyı yazmamızın sebebi pyspark ile parquet dosyası okumanın, standart dataframe API’si ile csv gibi yaygın formatları okumaktan farklılık göstermesidir.

Bu çalışma esnasında kullandığım ortamlar:

İşletim sistemi: Windows 10 64 bit Pro

IDE: Jupyter Notebook (Anaconda ile kuruldu)

Spark 2.3.1

Dil: Python 3

Kodlara buradan erişebilirsiniz.

Findspark ile Spark’ı bulalım:

SparkSession ve SqlContext’i içeri aktaralım:

SparkSession oluşturma:

SparkContext ve SqlContext oluşturma:

Parquet uzantılı dosyayı okuyalım:

Yukarıda sadece dizin verdik, .parquet uzantılı dosya dizin içindedir.

Okuduğumuzu görelim:

Çıktı:

Evet işte bu kadar. Pyspark ile parquet dosyası okuduk ve gördük. Başka bir yazıda görüşmek dileğiyle hoşçakalın…

Hakkında Erkan ŞİRİN

2014'ten beri hem akademik hem de sektörde pratik anlamda büyük veri ve veri bilimi ile ilgili çalışmalar yürütmektedir. Halihazırda İmpektra Bilişim A.Ş.'de büyük veri yöneticisi olarak çalışmakta olup aynı zamanda Gazi Üniversitesi Yönetim Bilişim Sistemleri doktora öğrencisidir. Büyük veri ve veri bilimi ile ilgili birçok kurum ve şirkete eğitimler vermekte ve projeler icra etmektedir. Çalışma alanları: büyük veri platformlarının kurulum ve yönetimi, büyük veri üzerinde makine öğrenmesi, olağan dışılık tespiti, sahtecilik tespiti, veri hazırlama sürecidir.

GÖZ ATMAK İSTEYEBİLİRSİNİZ

HDP-Sandbox içinde YARN’a Daha Fazla Kaynak Tahsis Etmek

Merhabalar. Bu yazımızda Hortonworks’ün Hadoop sürümü olan HDP 2.6.4 Sandbox üzerinde YARN’a daha fazla kaynağı …

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir