Anasayfa / Veri Bilimi / Veri hazırlığı / Veri Kazıma Nedir? Neden Yapılır?

Veri Kazıma Nedir? Neden Yapılır?

Merhabalar değerli okurlarım, bugün sizlerle veri kazımanın ne olduğu ve nerelerde kullanıldığı konusunu ele alacağız.

Veri kazıma, aynı zamanda web veri kazıma olarak da bilinir, bir web sitesinden veri alma veya “kazıma” işlemidir. Sıradan veriyi elle çıkarma işleminin aksine, web scraping yüzlerce, milyonlarca, hatta milyarlarca veri noktasını internetin sınırsız görünen sınırından almak için akıllı otomasyon kullanır.

Image result for web scraping

Hatta daha önce bir web sitesinden bilgi kopyalayıp yapıştırdıysanız, herhangi bir web kazıyıcıyla aynı işlevi yalnızca çok daha basit, manuel bir ölçekte gerçekleştirdiniz bile.

Veri Kazıma Aşamaları

Veri kazıma işlemi 2 aşamadan oluşur,

  • Web Taraması: Genelde “örümcek” olarak adlandırdığımız bir web tarayıcısı, aradığımız içeriği araştırmak için interneti tarayan ve linkleri toplayan bir sistemdir. Bu bir insan da olabilir, bir yapay zeka da.
  • Web Kazıması: Bir web kazıyıcı, bir web sayfasından verileri doğru ve hızlı bir şekilde çıkarmak için tasarlanmış özel bir araçtır. Web kazıyıcıları, projeye bağlı olarak tasarım ve karmaşıklık bakımından geniş ölçüde farklılık gösterir.

Veri Kazıma Yöntemleri ve Süreci

  1. Öncelikle hangi kaynaktan hangi verileri alacağınızı netleştirmemiz gerekiyor. Ardından tecrübeli kazıma ekibi, özellikle istediğiniz web sitelerinden istediğiniz verileri hedeflemek ve çıkarmak için projenize özgü bir kazıyıcı geliştirir.
  2. Veriler HTML biçiminde alınır, daha sonra istediğiniz ham verileri çevreleyen gürültüden çıkarmak için dikkatlice ayrıştırılır. Projeye bağlı olarak, veriler bazı durumlarda bir ad ve adres kadar basit olabilir veya daha kompleks veriler de olabilir.
  3. Ardından temizlenen veriler, isteğe bağlı olarak veri tabanlarında veya CSV, JSON, TSV dosyalarında saklanabilirler.

Python ile Veri Kazıma

Pythonda aksiyon gerektirmeyen durumlarda çoğunlukla BeautifulSoup adlı kütüphanesinden yararlanılıyor. BeautifulSoup, HTML veya XML dosyalarını işlemek için oluşturulmuş güçlü ve hızlı bir kütüphanedir. Bu kütüphane ile öncelikle sayfaların html kodlarını indirip, bu kodları parçalayarak verileri kazıyabilirsiniz. BeautifulSoup ile hiç veri kazıma çalışması yapmadıysanız ve nasıl yapacağınızı merak ediyorsanız lütfen bu veya bu makaleye göz atınız.

Veri Kazıma ile Neler Yapılabilir?

Fiyat İzleme

Çeşitli e-ticaret sitelerinden veriler toplanarak, ürününüz veya ürünleriniz için, Dinamik Fiyatlandırma, Rakip Analizi, Yatırım Kararı verme gibi projelerde kullanabilirsiniz, aktif olarak bu işi çok iyi şekilde yapan Prisync start-up’ına da tıklayarak erişebilirsiniz.

Finans için Dış Kaynak Verileri

Finansta müşterilerin finansal risk rapolarının dışında kullanılabilecek sosyal meyda verileri ve dış kaynak verileri de çok önem taşıyor, özellikle daha önce bankalarda kaydı olmayan birisi için kredi riski hesaplamak oldukça zor, bankalar bu işi kişinin sosyal medyadaki hareketlerine bakarak onun krediyi ödeyip ödemeyeceğini tahmin etmeye çalışıyor, veya dış kaynaktan psikoloji testleri yapıyorlar.

Duygu Analizi

Şirketiniz hakkında sosyal medya da nasıl bir algı oluştuğunu öğrenmek için duygu analizi modeli kurup sosyal medya verisini sürekli olarak kazıyarak ve analiz ederek aktif olarak müşteri beklentinizi ve deneyiminizi sürekli olarak arttırabilirsiniz.

Haber ve İçerik Takibi

Sadece sosyal meydada değil modern medya üzerinde de hakkınızda neler söylendiğini, şirketiniz hakkında ne gibi haberler yapıldığını anlık olarak takip edip buna bağlı olarak aksiyonlar alabilir, ayrıca yatırım yapacağınız şirket hakkındaki verileri analiz ederek yatırımınızı nasıl veya nerelere yapacağınız kararınızı netleştirebilirsiniz.

Bunun gibi birçok proje yapılabilir ve şirketlere / bireylere katma değer sağlanabilir.

Okuduğunuz için teşekkür ederim, sorularınız varsa yorumlar kısmında sormaktan çekinmeyin. Bir sonraki yazımda görüşmek üzere..

Kaynaklar

Hakkında Yunus Emre GÜNDOĞMUŞ

Machine Trainer & Junior Data Scientist

GÖZ ATMAK İSTEYEBİLİRSİNİZ

SQL Sorgularının Python Pandas Dataframe Karşılıkları-2 (GROUP BY, ORDER BY)

Merhabalar. Yaygın kullanılan SQL sorgularının Python pandas dataframe karşılıklarını bir örnek üzerinden paylaşmaya devam ediyoruz. …

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir