Veri Bilimci Olmak İçin Yol Haritası
Merhaba Veri Bilimci Adayı!
1. Veri Bilimi ile İlgili Tüm Etkinliklere Katıl
Türkiye’de ücretsiz düzenlenen etkinlikler var, hatta ücretli olanlara da git ki kıymeti olsun. Bunları zaman kaybetmeden takip etmeye ve etkinliklere katılmaya başla. Bu sana veri bilimi dilini öğretecek, kavramları daha hızlı tanımana sebep olacak, işin uzmanlarından bilgi edinmeni sağlayacak ve en önemlisi daha sonra lazım olacak olan bağlantılarını oluşturmana yardımcı olacaktır.
Etkinlikleri meetup.com üzerinden ya da Linkedin.com üzerinden takip edebilirsin.
Dikkat!
Bu etkinliklerin tozunu bir miktar yuttuktan sonra diyeceksin ki “meetup’lar fos, konuların detayına inilmiyor hiç bir şeyin…” .
Haklısın ama amaç zaten genel çerçeve hakkında bilgi vermek. Ki bu çerçeveler şu an senin ihtiyaç duyduğun şeyler. Hepsine katıl bu etkinliklerin.
Buradan Osman Atam isimli İstanbul meetup’larının kadrolu üyesi abimize sevgi ve saygılarımızı iletiyoruz.
2. Veri Bilimi Bloglarını ve Veri Bilimcileri Takip Et
Burada bir takım bilgi kirlilikleri ve kafa karışıklıkları yaşanabilme ihtimali var. Bunun için blog seçerken öncelikle güncel olan, yazılarını kaynaklı yazan ve sürekli içerik üreten blogları tercih etmenizi öneririz.
Veri Bilimi Blogları:
veribilimiokulu.com
analyticsvidhya.com
datasciencecentral.com
kdnuggets.com
Bazı Veri Bilimci / Yapay Zeka Uzmanı Profilleri:
Ya Türkiye’den?
Daha bir çok çok yetenekli veri bilimci / yapay zeka uzmanı elbette var fakat ilk bakışta aklımıza gelenleri eklemiş olduk.
3. Bir Programlama Dili Seç
SQL’i yalayıp yuttuktan sonra R veya Python’dan birisini seç ve hemen öğrenmeye başla. Bu ikisinden birisinde çok çok iyi olman lazım.
Tavsiyemiz ikisininde öğrenilmesidir. R bu iş için en iyi araçtır fakat bazı noktalarda kısıtları vardır. Daha büyük çaplı projeler ve ölçeklenebilirlik ihtiyacına en iyi cevabı Python ve Scala vermektedir. Fakat söz konusu bir ürün ya da büyük veri odaklı bir iş değilde veri bilimi olduğu için Python ve R ikilisini vazgeçilmez olarak niteleyebiliriz.
SQL için bu adreste ihtiyacınız olan düzeyin çok büyük bir kısmı ücretsiz olarak sunulmuş. Ücretliler için R ve Python için verilen kaynaklara bakabilirsiniz.
R ve Python öğrenebileceğin kaynaklar:
udemy.com
coursera.com
udacity.com
4. İstatistiksel Öğrenme’yi Hallet
Yeter artık ertelediğin, artık zamanı geldi. Görüyorsun işte kaçısı yok bu işin. ÖĞ-RE-NE-CEN. Öğretmezlerse de ÖĞRENECEN. En iyisi öğrenmek ya 🙂
İstatistiksel Öğrenme Başlığı Altında Edinilmesi Gereken Yetenekler İçin Aşağıdaki Maddeleri İfade Etmiştik:
- Tidy Data Süreci ve Veri Ön İşleme (eksik veri, aykırı gözlem, tutarsızlık incelemeleri vb)
- Keşifçi Veri Analizi (Betimsel İstatistik, Veri Görselleştirme)
- Çıkarımsal İstatistik (örnek teorisi, olasılık dağılımları, rastgele değişkenler, hipotez testleri, bayesçi çıkarım, robust yöntemler)
- Çok Değişkenli İstatistiksel Yöntemler (korelasyon, boyut indirgeme (PCA, LDA, Kernel PCA), varyans analizi, kümeleme analizi, faktör analizi, uyum analizi, path analizi, ayırma analizi vb)
- Regresyon Modelleri: Doğrusal regresyon, logit-probit, m.logit-m.probit, kantil regresyon vb
- Resampling Methods (yeniden örnekleme yöntemleri: cross-validation, bootstrap)
- Doğrusal Model Seçimi ve Regularization
- Doğrusallık ve Nedensellik
Bu yetenekler için udemy, udacity ya da coursera üzerinden aşağıdaki başlıklardaki kurslar bitirilebilir:
Udacity: Intro to Statistics
Udacity: Intro to Descriptive Statistics
Udacity: Intro to Inferential Statistics
Udacity: Exploratory Data Analysis
Udemy: Random Variables & Probability Distributions
Udemy: Statistics for Data Science and Business Analysis
Coursera: Bayesian Statistics: Techniques and Models
Ya da hepsini kenara bırakıp ufak tefek farklılaşmaları göze alıp toplu eğitimler olan sadece şu iki eğitimi edinebilirsiniz:
edx: Learn how statistics plays a central role in the data science approach: Statistical Thinking for Data Science and Analytics
Coursera: Statistics with R Specialization
En kötü ihtimalle yukarıdaki son iki kursu mutlaka dikkate almanızı öneririz.
Ben bunlarla uğraşamam bana Türkçe kitap lazım diyorsanız:
Prof. Dr. Fikri AKDENİZ: Olasılık ve İstatistik
Prof. Dr. Necmi Gürsakal: Betimsel İstatistik
Prof. Dr. Necmi Gürsakal: Çıkarımsal İstatistik
Prof Dr. Mustafa Baloğlu: Çok Değişkenli İstatistiklerin Kullanımı (Linda S. Fidell, Barbara Tabachnick)
Prof. Dr. Reha Alpar: Çok Değişkenli İstatistiksel Yöntemler
5. Makine Öğrenmesin Sen Öğren
Makine Öğrenmesi Başlığı Altında Edinilmesi Gereken Yetenekler İçin Aşağıdaki Maddeleri İfade Etmiştik:
- Regresyon Modelleri: Multiple Regresyon, Polynominal Regresyon, SVR, Regresyon Ağaçları, Random Forest Regresyon…
- Classification(Sınıflandırma):Lojistik Regresyon, K-NN, SVM, Naive Bayes, Karar Ağaçları, Topluluk Öğrenme Yöntemleri(bagging, boosting, RF,…,)
- Clustering(Kümeleme): Hiyerarşik ve Hiyerarşik Olmayan Kümeleme Yöntemleri(Hiyerarşik kümeleme, K-Means)
- Association Rules (Birliktelik Kuralları: Apriori, Eclat)
- Text Mining, NLP
- Reinforcement Learning
- Deep Learning
- Model Seçme (validasyon, test hatası yöntemleri, model performans değerlendirme, parametre tuning) ve Öğrenme Bozukluklarının Bilinmesi (underfitting, overfitting, good fitting)
- Basitin her zaman daha iyi olacağının ve “Tüm Modeller Kötüdür, Bazıları Kullanışlı” sözünün farkında olunması (George E.P. Box)
- Tahmin yakınlığı mı? Nedensellik mi? Durumlarının çok iyi kavranması.
Bu başlık için şiddetle aşağıdaki eğitimlerin hepsini verildiği sırada bitirmenizi tavsiye ederiz:
Rob Tibshirani: Professor of Health Research and Policy, and Statistics, Stanford
Trevor Hastie: Professor of Statistics, Stanford
Makine öğrenmesi alanında çalışanların yakından bileceği h2o şirketinin akademik danışmanları olan yukardaki değerli vatandaşlar ML başlığı altında olan hemen hemen her başlığı SL başlığı altında anlatıyorlar. Gerekçesini ve ne kadar mantıklı olduğunu ve ML – DS içerisinde hemen her noktada kullanılan istatistiğin öneminin kavranması konusunda büyük farkındalık yaratacaktır. Bu sebeple İstatistiksel Öğrenme başlığının çalışması bittikten sonra öncelikle bu kaynaklar önerilir.
Ayrıca aşağıdaki kitapları da ücretsiz, hepsinin çıktısını alıp üzerinde karalamalar yapmış birisi olarak şiddetle tavsiye ederim:
An Introduction to Statistical Learning with Applications in R
The Elements of Statistical Learning: Data Mining, Inference, and Prediction
Computer Age Statistical Inference: Algorithms, Evidence and Data Science
Statistical Learning with Sparsity: The Lasso and Generalizations
Coursera’daki bu efsane eğitimi yine makine öğrenmesi ve derin öğrenme dünyasının yaşayan efsanelerinden olan aynı zamanda Coursera’nında kurucusu olan Andrew Ng’den mutlaka almalısınız.
Andrew Ng, Co-founder, Coursera; Adjunct Professor, Stanford University; formerly head of Baidu AI Group/Google Brain
Yine Andrew Ng’nin https://www.deeplearning.ai/ adresindeki derin öğrenme derslerini de şiddetle tavsiye ederiz.
3. Machine Learning A-Z™: Hands-On Python & R In Data Science
Son olarak udemy’deki best seller’dan olan bu eğitimi de R, Python ve DS anlamında birleştirici özelliğinden dolayı edinmenizi tavsiye ederiz.
6. Big Data Yeteneklerini Edin
Büyük veri ile ilgili yine toplulaştırılmış eğitimleri tavsiye ediyoruz:
Spark and Python for Big Data with PySpark
7. Proje Yap
İyi ya da kötü projeler yapmaya bu hayat döngüsüne alışmaya çalışmalısınız. Veri Bilimci adaylarının en büyük eksikliği genelde bir proje çıkarma deneyimi olmamaları. Bu eksikliği gidermek için aşağıdakileri yapabilirsiniz:
Önceki Bölümlerde Verilen Eğitimlerdeki Tüm Projeleri Bitirmek
Kaggle Projelerini İncelemek
Kaggle: Veri Bilimi, Makine Öğrenmesi, Derin Öğrenme konularında yarışmalar düzenleyen bir platform. Burada yapılan projeleri inceleyerek yukarıdaki araçların hepsinin kullanarak nasıl DS projeleri çıkarılıyor olduğuna yönelik fikir edinebilirsiniz. Veri Bilimi Okulu olarak kaggle yarışmalarını analiz eden bir çalışma üzerinde çalışıyoruz.
8. Veri Bilimi Projesi Nasıl Yapılır?
Elimizde tüm yeteneklerimiz ve araçlarımız olduğuna göre artık sıra proje yapmakta. Ama nasıl? Bir Veri Bilimi Projesi nasıl yapılır? Veri bilimi projesi yaparken dikkat edilmesi gerekenler nelerdir? Bu konuda nasıl bir yol izlemeliyiz? Sorularına cevap bulmak ve bir Ver Bilimi Projesini götürmek için baş ucu rehberi arıyorsanız şu yazımıza göz atabilirsiniz: Veri Bilimi Proje Döngüsü
9. İş Başvuruları
Sürece başladığından itibaren katıldığın meetup’lar ve etkinlikler ile edindiğin çevrenin burada bir miktar katkısı olabilir. Bu çevreyi kullanarak ve güzel bir CV hazırlayarak bu sürece başlayabilirsin. Güzel CV’den daha değerlisi güzel bir linkedin, github, medium hesabıdır. Linkedin üzerine eğitim aldığın bu başlıkların hepsini yeteneklerine eklemeyi ihmal etme, hatta eğitim aldığın kişilerden yeteneklerini onaylamalarını isteyebilirsin.
Olasılık ve istatistik konusunda 2 kaynak arasında kaldım vahit bey. Sheldon ross ve Fikri Akdeniz hocaların kitaplarindan hangisini önerirsiniz
Fikri Akdeniz’i alabilirsiniz.
Merhabalar.Veri bilimi üzerine yoğunlaşmak istiyorum bunun için ilk önce R programı ile başladım belli bir seviyeden sonra yardım almak istiyorum yardımcı olabilirmisniz? Yada önere bileceğiniz birşey var mı ?
Merhaba Vahit bey, ben R ile machine learning uygulaması yapıyorum. Çoklu doğrusal regresyon modeli test hatası hesaplarken şu hatayı aldım.
Error in model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels) :
factor model has new levels 1.2 Design, 1.4 Silverline
Düzeltmek için denemeler yaptım ama düzeltemiyorum. Ne yapmamı önerirsiniz?
Vahit bey çok yararlı bir paylaşım olmuş, emeğiniz için çok teşekkürler. Sorum biraz ucu açık ve kişisel değişkenlere bağlı bir soru olacak farkındayım ancak genel fikrinizi merak ediyorum, matematik-istatistik temeli olan birisi Bigdata’ya kadar olan bölümü 6 aylık (tam zamanlı çalışma ile) süreçte bitirip sindirebilir mi?
hocam udemy videolarınızda nasıl bir sıra takip edelim ?
Vahit Bey Merhaba bu sürecin sağlıklı geçmesi için azami olarak ne kadar süreye ihtiyacımız vardır sizce ?
“Yapay Zeka uzmanı” diye Türkiye’den kendini bile yazmışsın Vahit, ama Ethem Alpaydın gibi bir duayeni yazmamışsın. Pes 🙂 Bu yazdığımı da sileceksin muhtemelen
Uluslararası bir platformda dağıtılacak büyük ödüller için tek otorite olarak bana fikirlerim soruldu ve ben de kendimi öne çıkarıp başkalarını gizledim, gerçekleri sakladım, büyük ödülü aldım ve siz de beni yakaladınız.
Yorumunuzu nasıl silsem de milyonların görmesini engellesem bilemedim.
Ethem Alpaydın hocamın MIT’den yayınlanan İngilizce kitabını da Türkçe kitabını da okumuş birisi olarak kendisine çok saygı duyuyor ve hemen her eğitimimde kendisine atıfta bulunuyorum.
İsminin burada geçmemesi ne onu uzman olmayan kişi yapar ne de beni art niyetli yapar.
Bu basit bir blog yazısı 🙂
Sevgiler.
Peki onun ismini burada yazmama sebebin nedir?
Yurtdışından verdiğin örnekler “Yann LeCun” ve onun seviyesindeki kişiler iken, Türkiye’den verilebilecek örneklerin sadece sen ve arkadaşların olması garip değil mi? 🙂 Sadece Ethem Alpaydın değil, Deniz Yüret’in kim olduğunu da araştırmanı öneririm
Belki de turkiyenin en buyuk veri bilimi platformu olmasinda ki, sayisiz insana veri bilimi konusunda ufuk acmis olmalarinda ki, buyuk emeklerle olusturulan kurslarda ki ve veri bilimi noktasinda Turkiye’yi temsil edebilecek kapasitedeki insanlarin bilgisini paylasmaya calismalarinda ki iyi niyeti gormeyip ya da buna deginmeyip, boyle bir yorum atmak ne kadar mantikli ve adil, cevabini size birakiyorum.
Öğrenilmesini tavsiye ettiğiniz Python ve R diline ek olarak C# diliyle de veri işlemleri yapılamaz mı? ya da C# ile ne eksik kalır? Herhangi bir nesne ile ilgili gerekli algoritmayı yazıp, modellemeleri de yaptıktan sonra C# ile işlem yapılamaz mı?
tavsiye ve önerileriniz için çok teşekkürler.
biraz eski yazı olduğundan eklemek ya da çıkartmak istediğiniz kısımlar var mı acaba? (güncellediniz mi bilmiyorum. Yayın tarihine göre konuştum.)