Anormallik Analizinde Kullanılan Yöntemler (Outlier Analysis Methods)

Erkan ŞİRİN 7 Ocak 2018 Makine Öğrenmesi, Kümeleme, Sınıflandırma 0 4175 3267 kelime - 22 dakika60

Bu yazıya puan ver

(1 votes, average: 5,00 out of 5)

Outlier Analysis Methods’e girmeden önce kısa bir alıntı ile giriş yapalım. Siyah kuğular görülmeden evvel yeryüzündeki tüm kuğular beyaz sanılırmış. Bir gün siyah kuğu ile karşılaşan insanoğlu, onu sıra dışı ilan etmiş. Nicholas Taleb, Black Swan isimli kitabının girişinde bu konuya temas eder. Kitabın ana fikri şu: Aslında insanlar önemli kararları ve köklü düzen değişikliklerini normal dağılıma göre değil, bunun dışında kalan, yani sıra dışı değer ve olaylara göre alırlar. Yani bir olay olunca tedbir alınır, kural konur, düzen değiştirilir. Halbuki bu olaylar genelde sıradışıdır. Anlaşılan beyaz kuğu hikaye, asıl önemli olan siyah kuğu, yani sıra dışı değer ve olaylar. Ben, beyaz ve siyah kuğu muhabbetiyle normal dağılım ve sıra dışı değeri anlatacak entelektüel mertebede değilim, ancak adamın kitabını biraz okumuştluğum var, oradan kalan kırıntılarla böyle entelvari bir giriş yaptım.

1. Giriş

Sıra dışılığı çok basit olarak tanımlamak gerekirse; sıra dışı bir eleman, diğer veri elemanlarından anlamlı derecede farklılık gösterendir şeklinde tanımlanabilir.

Bu yazımda Charu C. Aggarwal‘ın Outlier Analysis isimli kitabının An Inroduction to Outlier Analysis ünitesini okurken aldığım notları paylaşacağım.

Sıra dışı değer tespitinin makine öğrenmesi yöntemleri pratikte birçok alanda uygulanmaktadır. Bunlar:

Saldırı tespit sistemleri
Kredi kartı dolandırıcılıklarını tespit ve önleme
Sensör kayıtlarında sıra dışıları tespit ederek arıza, alarm, ikza sistemleri kurma
Tıbbi tanı
Kolluk kuvvetleri, asayiş sağlama, terörle mücadele
Bilim

Bunların hepsinde veri normal bir modele sahiptir, sıra dışı değerler ise bu model dışında kalan, modelden sapma gösteren değerlerdir. Bazı durumlarda sıra dışılıklar bir nokta olmaktan daha çok bir dizilime sahip olurlar. Örneğin bir bankacılık hilebazı binlerce normal müşteriden farklı olarak belli bir paterni izleyebilir.

Olağan dışılıkların tespitinde sonuç genelde iki şekilde olur.

Aykırı değer skoru: Bir çok aykırılık tespit algoritması aykırılığın derecesini gösteren bir sonuç üretir. Bu skor nesnelerin aykırılık eğilimlerine göre sıralanmasına olanak verir.
Normal ya da aykırı: Bazı algoritmalar doğrudan aykırı veya değil diye değer döndürürken bazıları da ikili değere (binary 0-1, var-yok gibi) dönüştürülebilir bir skor döndürür.

Gürültülü veri normal veri ile aykırı veri arasında yer alır. Bu yüzden özellikle denetimsiz yaklaşımda gürültünün nerede bittiği ve sıra dışılıkların nerede başladığı veri bilimcinin kullanacağı kiriterlere göre değişecektir. Aslında aykırılık tespitinde anahtar nokta normal modelin ne olduğunu saptayabilmektir. Normal model saptandıktan sonra zaten bu model ile uyumsuzluk derecesi belirli bir eşiğin üzerinde olan değerler aykırı değer olarak kabul edilebilir. Kısaca normal modelden anlamlı derecede sapma gösterenler sıra dışı kabul edilebilir.

Neyin anormal neyin normal olduğuna dair daha önceden bir tasnif yapılmışsa denetimli (supervised) yöntemler ön plana çıkacaktır.

Denetimsiz yöntemler genellikle gürültü temizlemede veya anormallik tespitinde, denetimli yöntemler ise uygulamaya özgü anormallik tespitlerinde kullanılır. Denetimsiz yöntemin ortaya koyduğu anormal küme elemanlarının anormallikleri kesinlik tanımaz ve daha detaylı incelemeye muhtaçtırlar.

Anormallikler tipik olarak gürültülü kayıtlardan çok daha yüksek skorlara sahiptir. Gürültülü veri temizlendiğinde normal ile anormal arasındaki fark her ne kadar berraklaşsa da gürültülü veriyi çekip almak da o kadar kolay değldir.

2. Anormallik Tespitinde Modelin Önemi

Anormallik tespit algoritmalarının çoğu veri içindeki normal örüntülere dair bir model geliştirir. Daha sonra her bir nokta için normal örüntüden sapma derecesine göre anormallik puanı hesaplanır. Bu veri modeli generatif (generative) veya yakınlık tabanlı (proximity-based) model olabilir. Bu modellerin her birinin normalliğe dair bazı varsayımları vardır. Anormallik tespitinde model seçimi hayati öneme sahiptir. Kötü model kötü sonuçlar üretir. Örneğin, eğer veri keyfi olarak kümelenmişse lineer model işe yaramayacaktır. Bu durumda aslında anormal olmayan veri noktaları anormal olarak görünecektir. Çünkü veriye uygun bir model seçilmedi.

Şunu söylemek gerekir ki; anormallik tespiti, çoğu zaman denetimsiz öğrenme işidir, hele neyin anormal olduğuna dair elde bir bilgi yoksa. Örneğin bir mekansal uygulamada (spatial application) bir coğrafi koordinata dair sıcaklık değişimi için o nokta civarındaki sıcaklığın aşırı farklılık göstermesi anormallik belirtisidir.

Modelin etkisini anlamak için Z testi uygulamak öğretici olabilir. Elimizde tek boyutlu, N elemanlı nicel bir seri olsun olsun. Bu seride her bir eleman X_i…X_N ile, ortalama µ, standart sapma ise σ ile gösterilsin. her bir noktanın Z değeri o noktanın ortalamadan kaç standart sapma uzakta olduğunu gösterir. Yani ortalamadan farkın standart sapma biriminden ifadesidir.

{ Z }_{ i }=\frac { \left| { X }_{ i }-\mu \right| }{ \sigma }

Her bir veri noktası için elde edilen bu değer anormallik puanı için iyi bir temsilcidir. Ancak unutmamak gerekir ki Z testinin normal dağılım varsayımı vardır. Bu dağılımdan yararlanarak Z > 3 değere sahip noktalar anormal kabul edilebilir.

İşin özü; en iyi anormallik tespit modeli veriye uyumlu modeldir. Anormallik tespitinin başarısı normallik modelinin iyi seçilmesi ve veri ile uyumlu olma derecesine bağlıdır. Model seçimine anormallik tespti sürecinde en kritik aşama diyebiliriz. En iyi model veri spesifik olandır. Bu yüzden model seçmeden önce veriyi çok iyi anlamak gerekir.

2.1 Denetimli Öğrenme Modelleri ile Bağlantısı

Anormallik tespitinde en çok merak edilen bir nesnenin (satır, kayıt vb.) normal olup olmadığıdır. Çoğu durumda normal sınıf anormal sınıfa göre baskındır ve bu yönüyle hedef değişkende dengesiz bir dağılım bulunur. Anormal kayıtlar ihmal edilerek verinin hepsi normalmiş gibi model kurulursa gürültülü değerlere anormallik atfedilebilir.

Anormallik analizinde örnek tabanlı (instance based) öğrenme metodu için en yakın bir komşu örnek verilebilir. Örnek tabanlı yaklaşımlar anormallik analizinde popülerdir. Çünkü anlaması kolay, etkili ve sezgiseldir. En başarılı ve popüler anormallik tespit yöntemi k-en yakın komşu algılayıcılarıdır ve Local Outlier Factor.

Örnek bazlı yöntemler, anormallik analiz topluluğunda o kadar popüler ki tek sınıflı analoglar (one-class analog) gözden kaçıyor. Aslında prensip olarak neredeyse her sınıflandırma yöntemi tek sınıflı analog oluşturmak için yeniden tasarlanabilir. Bu metotların çoğu açık genelleme yöntemleri (explicit generalization methods) dir.Bu yöntemler D ile temsil edilen bir dataset üzerinde iki adımlı bir yaklaşım kullanır:

Adım: Orjinal veri setinden tek sınıflı model yarat. Örneğin regresyon hiperdüzlemi; bu düzlem veri için basit ve özet bir model sunar, dolayısıyla açık bir genellemeye sahiptir.
Adım: D veri setindeki her bir noktanın skorunu hesaplayın. Bir regresyon hiperdüzlemi için bu skor öklid mesafesi olacaktır.

Açık genelleme yönteminin bir mahsuru vardır. Aynı veri seti hem eğitim hem de test için kullanılır. Bu durum her ne kadar aşırı öğrenme riski taşısa da açık genelleyici modellerin amacı kısa ve özlü modeller olduğu için böyle bir risk çok gerçekleşmez. Tüm veri eğitim için kullanıldığından burada aslında anormal değerleri de eğitim esnasında normalmiş gibi kabul edilir. Test aşamasında sokru yüksek olanlara aaa bunlar aşırılar bunlar anormal normal değil bunlar diye aşağılarız.

Aslında fiiliyatta tüm sınıflandırma modelleri, tek sınıf analog (one-class analog) kullanılarak anormallik tespitinde kullanılabilir.

3. Temel Anormallik Tespit Modelleri

Bu başlık altında literatürdeki en önemli modeller özet olarak anlatılacaktır. Anormallik model seçimini bir çok faktör etkiler bulardan bazıları;

Veri türü
Veri büyüklüğü
Anormal etiket taşıyan kayıtların olup olmaması ve bunların mahiyeti
Modelin yorumlanabilir olmasına duyulan ihtiyaç

Modelin yorumlanabilir olmasına biraz açıklık getirmek gerekirse model sonucunda üretilen anormallik skorlarının ve anormal olarak tespit edilen kayıtların niçin böyle olduğuna dair bilgi gerekebilir. Yani model tarafından tespit edilen anormaliklerin altında yatan mekanizmayı bilmeye itiyaç olabilir. Çünkü buna göre tedbir alınacak veya politika üretilecektir. Özellikleri orijinalliğini koruyan ve çok dönüüme uğramamış modeller örneğin Ana Bileşenler Analizi (PCA)’nin yorumlanabilirliği yüksektir.

Veri türü ve büyüklüğü, örnek anormal kayıtların mevcut olup olmadığı ve modelin yorumlanabilirliği gibi faktörler anormallik tespit modelin seçimi etkiler.

3.1. Anormallik Tespitinde Özellik Seçimi

Anormallik tespitinin denetimsiz öğrenmeye daha yakın bir tabiatı olduğu için özellik seçimi oldukça zordur. Sınıflandırmada hedef değişken ile bağımsız değişkenleri karşılaştırmak ve en ayırt edici özellikleri seçmek için çeşitli analizler yapmak mümkün iken denetimsiz öğrenmede hedef değişken bilinmediğinden özelliklerin hedef değişkenle ilişkisi incelenemez. Ancak tek değişkenli bir setin düzensizliğini ölçmek için basıklık(Kurtosis) ölçüsü yaygın bir yöntemdir. İlk adımda ortalama ve standart sapma hesaplanır ve ortalamalar sıfırlanarak birim varyans elde edilir.

{ Z }_{ i }=\frac { \left| { X }_{ i }-\mu \right| }{ \sigma }

z_i değerinin kareler ortalamasının 1 olacağını unutmayalım. Basıklık ölçüsü z_i nin dördüncü kuvvetlerinin ortalamasıdır. Özellik dağılımı çok fazla düzgün olmayan veri setlerinde yüksek basıklık sonuçları çıkar. Örneğin veride bir miktar aşırı değer olması basıklık katsayısını yükseltecektir. Basıklık ölçüsü, sıradışılıkların verinin düşük boyutlu iz düşümlerinde arandığı altuzay anormallik tespiti (subspace outlier detection) metotlarında sıklıkla kullanılır.

Basıklık kullanımı ile ilgili bir sıkıntı, özellikleri tek tek analiz ettiğinden diğer özellikler ile ilişkiyi kullanamaz. Basıklık ile düşük boyutlu mesafe dağılımlarını ölçmek de mümkündür. Örneğin N Mahalanobis mesafesi

Özellik seçimi ikinci bir yöntem ise aşırı değer tespit probleminin denetimli öğrenme ile olan bağlantılarını kullanmaktır. Bu yöntemin altında yatan temel düşünce diğer tüm niteliklerle herhangi bir korelasyona sahip olmayan özellikleri alakasız kabul etmektir. Diğer niteliklerle korelasyona sahip olmayan nitelikler veri bağımlılıklarını modellemek için kulllanılamaz. Eğer bir nitelik diğer nitelikler kullanılarak regresyon yoluyla tahmin ediliyorsa ve bu tahminde yüksek bir ortalama kareli hata (MSE) bulunuyorsa bu nitelik budanır. Her bir nitelik birim varyans olarak standartlaştırılır ve her bir niteliğin karesi alınmış hata ortalamalarının karakökü (RMSE) hesaplanır. Eğer herhangi bir niteliğe ait hesaplanan RMSE 1’den büyükse bu tahmin hatasının birim özellik varyansından büyük olduğunu gösterir. Bu sebeple bu özellik budanır. Bu yaklaşım aynı zamanda nitelikleri ağırlılandırmak için de kullanılabilir.

3.2. Uç Değer Analizi

Tek boyutlu veride anormallik tespitinin en temel şekli uç değer (extreme-value) analizidir. Burada kritik hıusus veri dağılımındaki istatistiksel kuyrukları iyi belirlemektir. Dağılımlardan normal dağılım en çok arzu edilendir çünkü analizi kolaydır.

Normalde tek boyutlu şu seride {1,2,2,50,98,98,99} kenarda kalan 1 ve 99 aşırı değer olarak kabul edilebilir ancak gerçekte 50 seri ortalaması olmasına rağmen aşırı değerdir, belkide anormal değerdir.

Uç değer her ne kadar istatistiksel olarak verinin sahip olduğu dağılıma göre anormal kabul edilemese de dağılımın sınırları içinde ancak sınırlara yakın olduğu için anormallik konusunda analizciye fikir verebilir. Anormallik tespitinde son aşamada uç değer analizi daha da işe yarar çünkü bu aşamada anormallik skorları normal desenden ne kadar sapma gösterdiğini ölçmek için nümerik olarak belirlenmiştir.

3.3. Olasılıksal ve İstatistiksel Modeller

Olasılıksal ve istatistiksel modellerde veri kapalı form olasılık dağılımı şeklinde modellenir ve bu modelin parametreleri öğrenilir. Dolayısıyla burada anahtar varsayım spesifik veri dağılımı seçimidir. Gauss karışık modeli örneğin, veri üretken bir sürecin çıktısıdır ve her nokta k adet Gauss kümesinden birine aittir. Bu Gauss dağılımının parametreleri beklenti-maksimizasyonu (expectation-maximization – EM) algoritması ile öğrenilir. Bu modelde önemli bir sonuç da veri noktalarının her bir kümeye ait olma olasılıklarıdır ya da yoğunluğa dayalı model uyumudur. Bu anormalliği modellemek için doğal bir yöntemdir. Pratikte bu uyum değerlerinin logaritması anormallik skoru olarak alınır çünkü aşırı değerlere giden yol anormale götürür.

Olasılık modellerin en büyük avantajı neredeyse tüm veri türlerine fiilen uygulanabilir olmalarıdır. Ancak karışık bileşen için üretici modelin olması gerekir. Örneğin eğer veri kategorik ise karışık bileşenin her biri için kesikli Bernoulli dağılımı model için kullanılabilir. Karışık türdeki nitelikler için niteliğe özgü üretici bileşenler kullanılabilir. Bu tür modeller olasılık ile çalıştığından normalizasyon meselesi üretici varsayım tarafından karşılanmış olur. Bu yüzden olasılık modeller jenerik EM tabanlı çerçevelerdir bu yüzden belirli bir veri tipine kolay uygulanabilir. Bu durum başka birçok model için geçerli değildir.

3.4. Lineer Modeller

Bu yöntemler, veriyi düşük boyutlu altuzaylar boyunca lineer korelasyonlar yardımıyla modeller. En optimal hiper düzlem elde etmek için genelde en küçük kareler uyumu kullanılır. Veriyi oluşturan noktaların bu hiper düzleme olan mesafeleri anormallik skorlarını ölçmek için kullanılır. Çünkü hiper düzlem artık normal veriyi temsil etmektedir, dolayısıyla elde edilen skorlar bir bakıma normalden sapma miktarıdır. Aslında boyut indirgeme ve temel bileşenler analizi konsepti de buna benzerdir. Yalnız küçük bir farkla, veri korelasyonu modellenirken parametrik olmayan yaklaşım kullanılır. Temel bileşenler analizinde hiper düzlemi belirlemek için kullanılan en küçük hataların karesi çok değişkenli regresyon analizi yoluyla türetilir.

3.5. Yakınlık Tabanlı (Proximity-Based) Modeller

Bu yöntemin temel düşüncesini hatırlatacak slogan: “bana arkadaşını söyle, kim olduğunu söyleyeyim” dir. Anormaller kendisini çevreleyen diğer noktalar ile tanımlanır. Bunun için benzerlik ve uzaklık ölçütleri kullanılır. Bu yöntemler üç farkı şekilde uygulanabilir: kümeleme, sıklık bazlı (density-based) ve en yakın komşu (nearest neighbor). Kümeleme ve sıklık tabanlı yöntemlerde veri noktalarının youn olduğu bölgelerden uzak noktalar anormallik potansiyeli taşır. Kümeleme ile sıklık tabanlı yöntemin farkı; kümeleme veri noktalarını (data points) segmentlere ayırırken sıklık tabanlı yöntemler veri alanını (data space) segmentlere ayırır örneğin histogram.

En yakın komşu yöntemindeyse seçilen k değeri kadar en yakın komuşuya olan uzaklık anormallik skoru olarak alınır. Bu yöntem hesaplama maliyeti en yüksek yöntemdir. Çünkü veri setindeki tüm noktaların birbirine olan uzaklıkları hesaplanır.

Kümeleme yönteminde ilk amaç veri noktalarının sıklık gösterdiği alanların kümesini tespit etmektir. Optimal küme sayısı belirlenip veri kümelere dahil edildikten sonra her bir noktanın küme merkezine (centroid) uzaklığı anormallik skoru olarak kabul edilebilir. Bu yöntemde değişkenlik çok yüksek olabildiği için anormallik skorunun sıhhati, kümeleme yönteminin sıhhatine bağlıdır. Bu yüzden bir kaç defa tekrarlanarak skor ortalamasını almak değişkenlik mahsurunu azaltabilir.

Histogram gibi sıklık tabanlı yöntemlerde ise veri alanı küçük bölgelere ayrılırve bu bölgelerde bulunan veri noktaları anormallik skoru hesaplamada kullanılır. Bu yöntemin daha yüksek bir yorumlanabilirliği vardır.

3.6. Bilgi Teorisi (Information-Theoretic) Modelleri

Yukarıda bahsedilen modellerin çoğu genelleyici modellerdi. Model genelinden tespit edilen sapmalar anormal kabul ediliyordu. Bilgi Teorisinde de benzer bir yaklaşım biraz farklı bir istikamette uygulanır. Veri setini tanımlamayı güçleştiren veya tanım için kullanılacak kod, cümleyi uzatan kayıtlar anormallik ölçütü olarak alınır. Örneğin bir kutuda 50 adet kırmızı top olsun. Kutu içindeki veriyi tanımlarken 50 kırmızı top diye tanımlarken içine iki mavi, üç yeşil, iki beyaz top attığımızda tanım uzayacaktır. Tanımı uzatan toplar anormal olarak kabul edilecektir. Tersinden söyleyecek olursak; hangi toplar kaldırıldığında kutu içindeki topları tanımlamak için sarfedilecek cümle kısalıyorsa o toplar anormal kabul edilebilir.

3.7. Yüksek Boyutlu (High-Dimensional) Anormalik Tespiti

Bir sürü nitelik gürültülü ve bazıları birbiriyle alakasız olacağından çok boyutlu veride anormallik analizi yapmak güçtür. Alakasız nitelikler; mesafelerin düzgün ve hassasiyetle hesaplanmasını güçleştirir. Çok boyutlu veride boyut arttıkça verinin seyrekleşme eğilimi de artar. Noktaların mesafelerinin ayırt edici gücü azalır. Böylelikle anormallik skoru noktaları birbirinden ayıramaz. Böyle durumlarda altuzay anormallik tespiti yapılır. Bu yaklaşım anormallerin altuzayda da gizli ve alışılmadık davranışlar gösterdiği varsayımına dayanır.

3.8. Aykırılık Tespitinde Öğrenici Toplulukların Kullanımı (Outlier Ensembles)

Rastgele Orman (Random Forest) yönteminde olduğu gibi sınıflandırma ve kümelemede birçok zayıf öğrenici bir araya gelerek daha güzel sonuçlar üretebilmektedir. Benzer yöntem aykırılık tespitinde de kullanılabilmektedir. Bu yöntemler ardışık (sequential ensembles) ve bağımsız yöntemler (independent ensembles) olmak üzere ikiye ayrılabilir. Ardışık yöntemler konusunda literatürde yeterince çalışmaya rastlanmamaktadır.

Yazar Hakkında

Toplam 177 yazı

Erkan ŞİRİN

10 yılı aşkın süredir yurtiçi ve yurtdışında sektörde büyük veri mühendisliği, platform yönetimi ve makine öğrenmesi ile ilgili çalışmalar yürütmekte ve aynı zamanda birçok kurum ve şirkete danışmanlık ve eğitimler vermektedir. Çalışma alanları: Data ve MLOps platformları, gerçek zamanlı veri işleme, değişen veriyi yakalama (CDC) ve Lakehouse.

Tüm yazılarını gör

Şunlar da ilginizi çekebilir