Anasayfa / Büyük Veri / Kategorik Veri Analizi ve Shiny Web Uygulamaları – 5

Kategorik Veri Analizi ve Shiny Web Uygulamaları – 5

Bundan önceki yazılarımda totaliter yönetim yapısını, halkın baskıcı bir yönetim sisteminin içerisine sokuşturulması ve içeride zorla tutulması şeklinde işlemiştik. Peki halk bu sistemin içerisinde kendi isteği ile  yer alıyorsa bunun adı nedir? Bunun sorumlusu kimdir?

Günümüzde daha güzel evlerde oturmak, son model telefonlara, arabalara sahip olmak için kısaca daha çok tüketmek için daha çok çalışmak zorundayız. Daha çok çalışmanın verdiği duygusal boşlukları doldurmak için yapay hazlara yöneltiliyoruz.  Daha çok çalışıp, daha çok mutsuzlaşıp, daha çok tüketiyoruz ve bunu kendi isteğimizle yapıyoruz. Kağıt üzerinde bunun sorumlusu bizleriz, bu döngünün içerisinde kendi isteğimizle yer alıyoruz.

Peki bu sistemin içerisinde yer almayanlar, sistem yöneticileri tarafından sizce hangi sözcükle tanımlanıyorlardır?

CEHENNEM

Kulağa korkutucu geliyor değil mi? Bence de.

Gündüz Vassaf, Cehenneme Övgü kitabında CEHENNEM kavramının günlük hayattaki karşılıklarını inceliyor. Kitapta, gün içinde farkında olmadan yaptığımız seçimler, toplum ile kurduğumuz ilişkiler, özgürlüğün doruk noktasını yaşayan deliler, gibi konular işleniyor.

 “Özgürlük, güç merkezleri tarafından sunulan şıklardan birini özgürce seçmekle sınırlı.”

 

Lojistik Regresyon

Lojistik Regresyonda Tanı İstatistikleri

İdeal modeli seçme sürecini tamamladıktan sonra, modeli kurup gözlemlerin uç değer olup olmadığı etkin gözlem tespit etme, modelin açıklanabilirlik yüzdesi hesaplama, ROC eğrisi çizdirme gibi işlemler yapılabilir.

 

1 – Deviance Artıkları

[-2,2] aralığında olması istenen bu istatistik “uç değer” tespit etmek için kullanılır. i-inci gözlemin bağımlı değişken için uç değer olup olmadığını tespit edebiliriz.

library(dplyr)
library(caret)

veri1 <- veri %>% 
  select(AGE, IVHX, NDRUGTX, TREAT, DFREE)

attach(veri1)

model2 <- glm(DFREE~factor(IVHX)+NDRUGTX+TREAT,family = binomial)
plot(model2)

Yukarıdaki grafikte ortak olarak görülen şey, 7. 350. ve 471. gözlemlerin uç değerler olduğudur.

dev <- residuals(model2,"deviance")
dev[dev[]>2]

Deviance değerleri -2 ile 2 arasında olmayan, yani uç değer olarak belirlenen gözlemler 7. 350. ve 471. gözlemlerdir.

 

2 – Leverage Değerleri 

Aynı şekilde uç değerleri tespit etmek için kullanılır.

7. ve 471. gözlemlerin uç değer olduğunu yakaladık fakat Leverage tanı istatistiği 350. gözlemi uç değer olarak değerlendirmedi. Bu değeri hesaplarken belirlenen gözlemin (2*p)/(n-p) değerinden büyük olup olmadığı incelenir. Belirlenen gözlemin Leverage değeri, sınır değerinden büyükse uç değer olarak adlandırılır.

Yüksek Leverage değerine sahip gözlemler etkin gözlem olma potansiyeline sahiptir.

 

3- Cook’s Distance

Etkin gözlemleri belirlemek için kullanılır. Bir gözlemi veri setinden silmenin model katsayı tahminleme ve ayrıca model yeterlilik istatistiklerine etkisini gösterir.

i-inci gözleme ait Cook’s Distance değeri 8/(n-2p) değerinden büyük ise o gözlem etkin gözlemdir.

Eğer etkin gözlem olarak belirlenen gözlemlerden bir tanesini çıkarırsaki, bu değişiklik modelin katsayılarını etkileyebilir. Dolayısıyla modelin anlamlılık istatistiklerini etkileyebilmektedir. Bu gözlemleri çıkarırken dikkatli olunması gerekir.

 

“Gün ışığı bir tuzaktır. Işık bizi kör eder. Ama geceleri, gözlerimiz fal taşı gibi açılır. Geceleri, tüm öteki duyularımız da daha duyarlıdır, çünkü düzen güçleri o saatlerde makinelerini kapatmış olurlar. Gece, düzen güçleri uykudadır. Bürokrasi, askeriye, okullar, polis, kısacası yaşamımızı düzenleyen tüm güçler uykudadır; sokakta devriye gezen nöbetçi polis dışında. Askerler de hepimizden önce yatağa girerler. Dünyanın bu en baskıcı kurumunun mensupları, en erken yatanlardır aynı zamanda. Aslında, tüm totaliter kurumlarda, daha doğrusu, tüm kurumlarda (tüm kurumlar totaliter değil midir zaten?) insan her zaman erken yatmak zorundadır. Yatılı okullarda, manastırlarda, ailede, cezaevlerinde, hastanelerde… Kişinin istediği saatte yatma hakkını destekleyen, bu özgürlüğe onay veren hiçbir kurum tanımıyorum.”

 

Modelin Tahmin Performansının Ölçülmesi

Modelin tahmin performansı genel anlamda hassaslık ve duyarlılık değerleri ile ölçülür.

Hastalıklardan örnek vermek gerekirse;

– Bir kişinin hasta olduğu bilindiğinde, modelin o kişiyi hasta olarak tahmin etmesi olasılığı duyarlılık,

– Bir kişinin hasta olmadığı bilindiğinde, modelin o kişiyi hasta değil olarak tahmin etmesi olasılığına seçicilik denir.

Çalışmanın türüne göre bir eşik değeri(cut off) değeri belirliyoruz, eğer  değeri belirlenen cut off değerinden büyük ise 1, küçük ise 0 değerini atanır. Gözlenen değerler ve cut off değerine göre tahmin ettiğimiz tahmin değerleri ile  bir çapraz tablo oluşturulur ve duyarlılık seçicilik değerleri bu tablo üzerinden hesaplanır.

– Duyarlılık(Sensitivity) = TP / (TP+FN)

Gerçek durumda hasta olan kişileri hasta olarak tahmin etme sayısını, gerçek hasta sayısına bölerek elde ettiğimiz oran değeridir.

– Seçicilik(Specificity) = TN / (TN+FP)

Gerçek durumda hasta olmayan kişileri hasta değil olarak tahmin etme sayısını, gerçek durumda hasta olmayanların sayısına bölerek elde ettiğimiz oran değeridir.

– Accuracy değeri modelin doğru tahmin etme gücünü ifade etmektedir. Yani;

(Hasta olan bir kişiyi hasta olarak tahmin etmek(TP)+ Hasta olmayan bir kişiyi hasta değil olarak tahmin etmek(TN))/(Bütün Tahminler)

 

“Psikolojik açıdan kendilerini güvende hissetmek için durmadan yiyip şişmanlayan insanlar gibi, seçenekleri birbiri ardına tüketip duruyoruz. Temel güvensizliğimiz içinde, seçim ve tüketim yoluyla, fiziksel ve psikolojik bir şişkoluğa doğru yol alıyoruz pupa yelken. İnsanlar hiçbir zaman bugünkü kadar çok seçim yapmamış, başkalarını hiçbir zaman bu yüzyıldaki kadar seçtikleri şeylere göre değerlendirmemişlerdir.”

 

 

Shiny

Youtube kanalımızda yayınlanan, Shiny eğitim serimize hız kesmeden devam ediyoruz. Her videoda, öncelikle kullanılan fonksiyonları tanıdıktan sonra bir uygulamayla bu fonksiyonları kullanımlarını inceliyoruz.

 

Shiny ile Merkezi Limit Teoremi Simülasyonu

Kullanılan fonksiyonlar;

sliderInput()  -> slider girdi nesnesi oluşturmak için kullanılır.

reactive()  -> input değişkenlerini otomatikleştirmek(kullanım kolaylığı) için kullanılır.

p()  -> Başlık veya not eklemek için kullanılır. HTML kodları bu fonksiyonun içine yazılarak başlıklar ayrılır.

 

 

Shiny ile Vücut Kitle İndeksi Hesaplama Uygulaması

Kullanılan fonksiyonlar;

textInput()  -> text formatındaki girdi nesneleri oluşturmak için kullanılır.

selectInput()  -> bir listedeki elemanlardan tek tek veya grup olarak eleman seçme işlemi yapılır.

numericInput()  -> sayısal değerler için girdi nesneleri oluşturmak için kullanılır.

actionButton()  -> bir buton ekler, manuel olarak hesaplama işlemleri yapmak için kullanılır.

br()  -> nesneler arasında satır bazında boşluklar oluşturmak için kullanılır.

reactive()  -> input değişkenlerini otomatikleştirmek(kullanım kolaylığı) için kullanılır.

isolate()  -> actionButton() fonksiyonu ile beraber kullanılır. Yapılması istenen işlemleri sınırlandırmak/seçmek için kullanılır.

 

“Psikiyatristin önüne, savaşmaktan başkalarını öldürmekten ödü kopan bir asker getirildiği zaman, psikiyatristin görevi, onu bir an önce, savaş alanına geri göndermektir. Psikiyatristin ve onun temsil ettiği güçlerin bakış açısına göre, normal olan, askerin katil fonksiyonunu yerine getirmesidir. Anormal sayılan ise, bu delikanlının korkması, savaşmak istememesi, öldürmek istememesidir. Psikiyatristin görevi onu yeniden katil kimliğine kavuşturmak ve bunu mümkün olan en kısa sürede yapmaktır. Savaşma kararını, başkalarının öldürülmesi kararını, belki de homo sapiens türünün ve bizimle birlikte daha pek çok türün yok olmasına yol açacak bu kararı veren “liderlerin” akıl sağlığını sorgulamaksa, hiçbir zaman psikiyatristin görevi sayılmaz ve sayılmamıştır bugüne dek.”

 

Not : Bundan sonraki yazı, bu yazı dizisinin son yazısı olacaktır. Son yazımda alıntılar yapacağım kitap “Ray Bradbury – Fahrenheit 451” olacaktır.

 

Değerli zamanınızı ayırdığınız için teşekkürler.

 

Kaynaklar

https://tezverianaliz.com/biyoistatistik-dershanesi/ozgulluk-ve-duyarlilik-specificity-and-sensitivity-1/

https://shiny.rstudio.com/gallery/widget-gallery.html

https://shiny.rstudio.com/tutorial/written-tutorial/lesson4/

Hakkında Mustafa Nayansak

Mustafa Nayansak, Dokuz Eylül Üniversitesi - İstatistik bölümü mezunu. İstatistiğin teorik ve uygulamalı altyapısına sahip ve bu altyapının üzerine Veri Bilimi, Büyük Veri kavramlarını inşa etmek için R programlama dilini kullanan istekli bir öğrencidir. R programlama dilini sadece istatistiksel analizler yapmak için değil Shiny, RMarkdown gibi özelliklerin de kullanılmasının önemine inanır. Bu düşüncenin temel sebebi ise çalışmaları daha etkileyici bir şekilde sunmak, daha ilgi çekici detaylarla zenginleştirmek ve bir programlama dilini daha etkin kullanabilmek.

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Parametrik Testlerden T Testi ile Merhaba

Giriş Veri Bilimi Okulu okuyucularına merhaba! Uzun süredir Veri Bilimi Okulu’nun teknik alt yapısı görevlerimin …

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir