Anasayfa / Büyük Veri (Sayfa 3)

Büyük Veri

Spark Dataframe&Dataset Operasyonları-2:

Merhaba, bu yazımızda veri ön hazırlığı aşamasında, veri yüklerken, Spark Dataframe oluştururken, dataframe şekillendirirken, onu dönüştürürken, dataframe üzerinde veri keşfi yaparken vb. işlemler için kullandığım spark yapısal API operasyonlarından faydalı bulduklarımı paylaşacağım. Görkemli ve haşmetli makine öğrenmesi, derin öğrenme ve …

Daha Fazlası >>

Apache Spark ile Artık İdeal Küme Sayısını Bulmak Daha Kolay

Bildiğimiz gibi makine öğrenmesinde öğrenme yöntemleri genel olarak denetimli (supervised) ve denetimsiz (unsupervised) şeklinde ikiye ayrılıyor. Denetimli yöntemlerde sınıflandırma ağırlık kazanırken denetimsiz yöntemlerde ise kümeleme öne çıkmaktadır. Sınıflandırmada veri içinde etiketlenmiş bir hedef değişken bulunurken kümelemede ise herhangi bir hedef  …

Daha Fazlası >>

Büyük Veri Nedir?

Google’a “büyük veri nedir?” diye sorduğumuzda birçok tanım, birçok “V”, birçok bir şeyler denk gelecektir. Önemli bir etkinlikte bir Doçent hocamızın şu ifadesi çok güzeldi: “Yıllardır büyük veri ile ilgileniyorum ama hala ne olduğunu hala anlamadım.” Yaklaşın, ben anladım! 🙂 …

Daha Fazlası >>

Analitik Dikeyler ve Tidy Data’nın Önemi (büyük veri ile çalışan kurumlar için )

Büyük veri tamam peki ya büyük verinin analitiği? Büyük veri analitiğininde de çözülmüş olduğu durumda peki ya büyük veri kullanılarak üretilen veri bilimi projelerinin verimi, ölçeklenebilirliği, sürekliliği ve el değiştirme hızı? Yazının amacı veri bilimi projelerinin verimini artırmak, keşifsel analiz …

Daha Fazlası >>

Windows 10 Spark-2 Kurulumu

Apache Spark büyük veri analizinin en önde gelen platformu olarak popülerliğini ve önemini gittikçe arttırıyor. Bir çok insan Spark’ın bu değerini farkettiğinden Spark öğrenmeye başlıyor. Birçok kullanıcının bilgisayarında Windows işletim sistemi kurulu. Spark’ı Windows işletim sistemi üzerine de kurarak kullanabiliriz. …

Daha Fazlası >>

Apache Spark 2.3.0 OneHotEncoderEstimator: Scala Örnek Uygulaması

Apache Spark 2X’e geçtikten sonra dördüncü sürümünü genel kullanıma sundu. Son sürüm 2.3.0. Bu sürümle birlikte gelen bir çok yenilik arasında MLlib kütüphanesindeki OneHotEncoderEstimator da yer alıyor. Bu sınıf, makine öğrenmesinde veri hazırlığı aşamasında kategorik niteliklerin vektör haline getirilmesine katkıda bulunuyor. …

Daha Fazlası >>

Hadoop HDFS Nedir?

HDFS Hadoop projesinin en temelinde bulunan çok büyük hacimli verileri depolamak için tasarlanmış java tabanlı dağıtık bir dosya sistemidir. Hatalara karşı dayanıklıdır. Ölçeklenebilir. Düşük maliyetlidir. Büyük veriler için idealdir. HDFS Öne Çıkan Özellikler Bir kez yaz defalarca oku Özel bir …

Daha Fazlası >>

Çoklu Doğrusallık Sorunu Çözümünde VIF

Çoklu regresyon analizinde bağımsız niteliklerin bağımlı nitelik üzerindeki etkisi incelenir. Bazı bağımsız nitelikler birbirleriyle yüksek doğrusal korelasyona sahip olduğundan bağımlı değişken üzerindeki etkisi dağılır. Modelin sadeliği va anlaşılırlığı adına bağımlı değişkene en çok etki eden az sayıda değişken ile model oluşturmak arzu …

Daha Fazlası >>

Apache Spark K-Ortalamalar Tekniği ile Bilgisayar Ağlarında Anormallik Tespiti Bölüm 2/3

Merhabalar Apache Spark ve K-Ortalamalar tekniğini kullanarak bilgisayar ağlarında anormallik tespiti yazısına devam ediyoruz. İlk yazımız buradadır. İlk yazıda K-Ortalamalar tekniğine genel bir giriş yaptık, veriyi yükledik, veri keşfi ve temizlik yaptık. Bu yazımızda veri ön işlemesi ile devam edeceğiz. …

Daha Fazlası >>