Anasayfa / Genel bir bakış / Kurumsal Şirket İçinde Veri Bilimi Projesi Döngüsü

Kurumsal Şirket İçinde Veri Bilimi Projesi Döngüsü

Merhaba Arkadaşlar,

Kurumsal şirketlerde veri bilimi projesi yaparken karşılaşılan sorunlar çok detaylı bir konu aslında. Ben en önemli gördüğüm birkaç noktasından az biraz bahsedip farkındalık oluşturmak istedim.

Kurumsal bir şirkette çalışıyorsanız ve kurumun içindeki yoğun iş akışıyla beraber, gerçek bir problem üzerinde veri bilimi proje döngüsünü uygulamak istiyorsanız, ilk adım ve son adımda yapılacaklar anlamlı bir başarıya ulaşmanız için çok önemlidir. Tabi ki her adımın önemi farklıdır ama ilk adım bu işe başlayabilmeniz için mutlak gereklidir, son adım ise yaptığınızı göstermek ve uygulamak için, diğer taraftan da yeni projeleri hayata geçirmek için önemlidir.

Kaggle yarışmaları ve hackatonlarda, bir veri setini alıp hızlıca hedefe koşuyoruz doğru modellerle iyi sonuçlar elde ediliyor. Az zaman diliminde hızlı çözümler üretmek farklı yetenekler gerektiriyor. Bu süreçlerde gerçekten bilgi birikimini hızlı kullanman lazım ve gerekirse en hızlı şekilde araştırma yapıp bilmediğini o anda öğrenmen ve kullanman gerekiyor. Kurumsal hayatta bir uygulama yapmanın ciddi farklılıkları bulunmaktadır.

Kurumsal hayatta bir veri bilimi projesi uygularken 2 önemli soruyu mutlaka en baştan sorman gerekir. Bunlar ; veri bilimine bakış açısı yani üst yönetim desteği ve veriye erişim ne durumdadır? Proje sonunda da organizasyon bu çıktıyı nerede, nasıl ve kim tarafından uygulayacak?Geçtiğimiz günlerde çok fazla veri üzerine olan etkinliklere katılma fırsatı buldum. Şirketlerin hepsi veri bilimi üzerine bir yapılanma ve ekip kurma süreci içerisindeler, bu süreci tamamlayanlar da doğru konular üzerinde çalışmak için araştırma içerisindeler.

Şirketler gerçekten bu konularda bir şeyler yapmak istiyor fakat en sonunda fayda sağlamaya değer üretmeye ulaşmak pek mümkün olmuyor. Olanların az sayıda olduğunu söyleyebiliriz. Çünkü şirketlerin kendi iş döngüleri içinde veri bilimi projesi döngüsünü tastamam uygulamak kolay olmuyor.

Veri bilimi proje döngüsü ile ilgili, burada Vahit Keskin’in ele aldığı  çok güzel bir yazısı var, bende tekrardan  vurgulamak istedim. Vahit’in yazısını mutlaka okuyunuz. Veri bilimi projesine başlarken buradaki bilgileri bir kontrol listesi olarak kullanmak iyi olacaktır.

Bir şirket çatısı altında veri bilimi projesi yapmak ve modeli canlıya alıp projeyi gerçek hayatın içinde uygulamak sadece veri bilimi hakkında bilgi sahibi olmakla bitmiyor tabi ki. İlk adım olarak doğru projeyi seçmek lazım çünkü uzun bir efor sarf edeceksiniz ve bunun sonucunda şirket için faydalı bir sonuç almanız beklenir.

Şirketin öncelikli olarak hangi problemi çözmeye ihtiyacı var? Ne kadar sürede proje biter ki bu o dönemde fayda sağlanabilsin. Yani yaptığımız işi o dönemin sorunlarına cevap veriyorsa bunu çok hızlı şekilde yapmalıyız veya başka bir konuya odaklanmalıyız.

Veriye erişim konusuna geldiğimizde, şirkette olan tüm veri kaynaklarını bilen birisi mümkün değil, herkes kendi alanında özel konular ile çalışabilir. Modele girecek değişkenlerin çeşitliliği çok önemlidir. Veri bilimci bir projede mümkün olan tüm veriyi toparlamak ister ki daha anlamlı modeller kurabilsin. O zaman probleminiz için belirlediğiniz ihtiyacınız olan verileri detaylı araştırmanız gerekebilir. Bu kısımda da birden fazla departman ile görüşmek gerekebilir hem IT hem iş birimi olabilir. Çünkü kaynak sistemlerden gelen veriyi veri ambarı ortamına bir arkadaş koymuş olabilir ama bunu iş biriminden aldığı belli kısıtlar ile yapmış olabilir. Bu da senin elindeki veriyi yanlış veya eksik yorumlamana sebep olabilir. Veri hazırlama, döngünün en önemli kısmı diyoruz her zaman, yanlış veya eksik veri hazırladığın zamanda modeller ona göre öğrenecektir veya öğrenemeyecektir.

Burada kurum kültürü çok önemlidir çünkü şirketler uzun süredir ayaktadır  ve çok çalışan gelip geçmiştir, herkes bir tuğla koymuştur ama bunu aktarabilmek ve okuyabilmek başka bir uğraştır. Bir de veri güvenliği işin içine girer, yetki problemleri başlar, tabi ki çözülür bunlarda ama hepsi bir aşama ve süreçtir bu da senin projeni yavaşlatabilir.

Çıktıları Sunmak ve Göstermek

Veriye ulaştık ve doğru şekilde yorumladıktan sonraki süreçte analitik yetkinliklerini kullanarak tüm taklaları attığını düşünelim. Buradaki aşamalar tabi döngünün en detaylı ve uzmanlık gerektiren taraflarıdır. Tüm bunları da başarıyla geçtikten sonra artık bu çıktılarını ilgili paydaşlara da sunman ve onların kullanabileceği şekilde servis etme işlemleri var.

Çıktılarını excel ile de servis edebilirsin, bunun da avantajları ve dezavantajları var. En önemli avantajı hızlıca çıktıyı sunmuş olursun, dezavantajı ise takip yapını tamamen manuel götürmen gerecektir. Diğer taraftan müşteri yönetim platformu, bir uygulama bir arayüze entegrasyon dediğin zaman işte işler orada biraz daha karmaşıklaşıyor. Bu sistemlerin de belli bir deployment zamanları var, bununla ilgili başka ekiplerle iletişim var. Çıktıları kullanacak ve aksiyon alacak kişinin de bu çıktıları kullanması için anlaması gerekir. Gerçekten problemine çözüm olduğunu bilmesi ve çıktılara da güvenmesi gerekir. Bu güveni sağlamak ve çıktıyı kullanım için basit, görünür hale getirmek iyi planlanması gereken bir süreçtir.

Örneğin ;

Müşteri için bir churn(kayıp) eğilim modeli kurdunuz diyelim, evet model performanslarınız çok iyi doğru tahmin ediyorsunuz. Yani bu müşteri kesin gider, bu müşteri kesin gitmez diye söyleyebiliyoruz. Buradaki amaç müşteriyi churn etmekten kurtarmak ve şirkete bağlı kalmasını sağlamak istiyoruz. Peki bu müşteriyle nasıl iletişime geçmeyelim? Ne zaman? Evet müşteri churn edecek ama model bana bunun nedenini söyler mi acaba?

Yani günün sonunda alacağım aksiyonla müşteriyi tutundurmak istiyorum o yüzden model çıktısını uygularken başka bilgilere ve bir stratejiye de ihtiyacım var. Tek başına müşterinin gidip gitmeyeceğini söylemek yeterli olmayabilir.

Başka bir örnek;

Müşterinin başka bir ürün alma eğilimi var, bir çapraz satış için model kurdum ve bu müşteri için model sonuçları alır diyor. Peki her zaman ve her koşulda alır mı gerçekten?

Evet alma eğilimi yüksektir fakat doğru zamanda doğru iletişim tekniği ile gitmen gerekecek. Müşterinin bu konuda iletişim tercihleri nelerdir? Müşterinin davranışıyla ilgili bir segmentasyonun var ise bu uygulama kısmında ondan faydalanabilir misin?

Veri bilimi projesinde sonunda neye hizmet edeceği ve nasıl kullanacağınızı iyi düşünmeniz ve planlamanız gereklidir. Bu planı oluşturmak çalışma yöntemini ve model mantığını bile değiştirebilir.

Güzel ve uygulanan projeler gerçekleştirmeniz dileğiyle.

Görsel Kaynak : https://medium.com/bright-minds-analytica/data-science-machine-learning-project-life-cycle-aa06d9cfc33d

<

Hakkında Taner Kocakafa

Yıldız Teknik Üniversitesi İstatistik Bölümü Mezunu. 2012’den beri perakende ve sigorta sektöründe analitik konularında çalışmıştır. Şirket içi analitik bakış açısı ve analitik araçlarla ilgili eğitimler vermektedir.

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Natural Language Toolkit(NLTK)

Doğal Dil İşleme kütüphanesi olan Natural Language Toolkit(NLTK)'i ve en sık kullanılan modüllerinden bahsedip Pyhthon'da uygulamalarını gerçekleştirdim.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir