Bu çalışma materyali, ders notları, ders kaydı transkripti ve sağlanan PDF/PowerPoint metinlerinden derlenmiştir.
Veri Madenciliğinde Veri Hazırlama ve Yakınlık Ölçüleri Çalışma Materyali 📚
🎯 Giriş
Veri madenciliği, 1990'lı yıllardan itibaren RFID, barkod ve veri depolama araçları gibi teknolojilerle birlikte sürekli bir gelişim göstermiştir. Temel amacı, geniş veri tabanlarından önceden bilinmeyen, geçerli ve uygulanabilir bilgileri elde ederek işletme kararlarında kullanmaktır. Bu süreçte, ham verinin analize hazır hale getirilmesi büyük önem taşır. Farklı kaynaklardan gelen veriler genellikle hatalar, kayıp değerler veya aykırı değerler içerebilir. Bu nedenle, veri madenciliği analizlerinin kalitesini ve güvenilirliğini artırmak için veri hazırlama aşaması kritik bir rol oynar. Veri hazırlama, verinin temizlenmesi, birleştirilmesi, indirgenmesi ve dönüştürülmesi gibi işlemleri kapsar. Ayrıca, veri kümesindeki birimler arasındaki benzerlik veya farklılık derecesini matematiksel olarak belirlemek amacıyla benzerlik ve uzaklık ölçüleri kullanılır. Bu ölçüler, kümeleme analizi, aykırı değer tespiti ve sınıflandırma gibi veri madenciliği tekniklerinin temelini oluşturur.
📊 Temel Değişken Tipleri
Veri madenciliğinde, hakkında bilgi edinilmek istenen varlıkların özelliklerini ifade eden değişkenler, veri setinin sunumunda sütunlarda yer alır. Bu değişkenlerin doğru anlaşılması ve kullanılması, veri analizinin başarısı için esastır. Ölçme, birimlerin sahip olduğu özelliklerin derecesinin belirlenerek sonuçların sayısal olarak ifade edilmesidir. Temel değişken tipleri şunlardır:
- İsimsel (Nominal) Değişkenler: Gözlem değerlerinin nitel kategori veya sınıflara atandığı ölçeklerdir (örn: cinsiyet, ürün türü). Sayısal formda olabilirler ancak matematiksel işlem anlamlı değildir.
- İkili (Binary) Değişkenler: İsimsel değişkenlerin özel bir şekli olup sadece iki olası sonucu ifade eder (örn: 0/1, doğru/yanlış, erkek/kadın).
- Sıra Gösteren (Ordinal) Değişkenler: Değerler arasında bir sıralama ilişkisi barındırır (örn: eğitim seviyesi, ürün kalitesi: kötü, orta, iyi). Eşitlik ve sıralama ölçüsünü kullanır.
- Tam Sayılı (Integer) Değişkenler: Alacağı değerler 0, 1, 2, ... gibi tam sayılar olarak belirtilebilen değişkenlerdir (örn: çocuk sayısı, satılan ekmek sayısı). Ondalıklı değer almaz.
- Aralıklı Ölçümlendirilmiş (Interval-Scaled) Değişkenler: Sıra gösteren değişkenlerin tüm özelliklerini içerir ve birimler arası farklar matematiksel olarak belirlenebilir. Belirli bir başlangıç noktası olmamakla birlikte ölçü birimi vardır (örn: hava sıcaklığı). Oran hesaplamaları için uygun değildir.
- Oranlı Ölçümlendirilmiş (Ratio-Scaled) Değişkenler: Aralıklı ölçümlendirilmiş değişkenlere benzerdir ancak sıfır başlangıç noktası tüm ölçüm araçlarında aynı anlamı taşır (örn: ağırlık, uzunluk). Yokluk anlamına gelen belirli bir sıfır değeri barındırır ve oransal analizlere olanak tanır.
🛠️ Veri Hazırlama Süreçleri
Veri hazırlama, ham verideki kusurları gidererek analiz kalitesini artırmayı hedefler. Bu süreç, veri analistinin zamanının %80'ini harcamasına neden olabilir ancak veri madenciliği çıktısının kalitesini doğrudan etkiler. Dört ana adımdan oluşur:
1. Veri Temizleme ✅
Verideki tutarsızlıkların, gürültünün ve eksik değerlerin giderilmesi işlemidir.
- Eksik Veri: Bazı özellik değerlerinin boş olması durumudur.
- Nedenleri: Bilgi vermek istememe, yanlış anlama, veri giriş hatası, tutarsızlık nedeniyle silinme.
- Stratejiler:
- Eleme: Eksik veriye sahip nesneleri veya özellikleri çıkarmak. Bilgi kaybına yol açabilir.
- Tahmin Etme: Eksik veriyi diğer veriler kullanarak tahmin etmek.
- Manuel doldurma (zaman alıcı).
- Genel bir sabit kullanma (algoritmaları olumsuz etkileyebilir).
- Ortalama, medyan, mod gibi tek bir değerle değiştirme.
- Kendi sınıfındaki değerlerin ortalaması ile tamamlama.
- Regresyon veya karar ağaçları ile en uygun değeri kullanma (en sık kullanılan yöntem).
- Göz Ardı Etme: Birçok veri madenciliği algoritması eksik veriyi göz ardı edecek şekilde düzenlenebilir.
- Gürültülü Veri: Beklenen değerlerden sapan aykırı değerler veya hatalardır.
- Nedenleri: Hatalı veri toplama, veri girişi problemleri, teknolojik kısıtlar.
- Düzeltme Yöntemleri: Bölmeleme (verileri sıralayıp bölmelere ayırma), kümeleme (aykırı değerleri gruplardan ayırma), bilgisayar ve insan denetimi, regresyon.
- Tutarsız Veri: Veritabanı kayıt işlemlerinde oluşan hatalardır. Dış veri kaynakları veya bilgi mühendisliği araçları ile düzeltilebilir.
2. Veri Birleştirme 🔗
Çoklu kaynaklardan (veritabanları, veri küpleri, dosyalar) gelen verilerin uygun bir veri ambarında birleştirilmesidir.
- Şema Birleştirme: Farklı kaynaklardan gelen verilerin eşleştirilmesi. Meta veri kullanılabilir.
- Veri Fazlalığı: Bir varlığın özelliklerinin birden fazla kaynaktan toplanması. Korelasyon analizi ile tespit edilebilir.
- Veri Değer Karmaşıklığı: Farklı kaynaklardan gelen özellik değerlerinin ölçekleme, birim sistemi veya gösterim farklılıkları nedeniyle heterojen olması.
3. Veri İndirgeme 📉
Büyük veri kümelerinin analiz süresini kısaltmak amacıyla veri hacmini azaltmayı amaçlar. Elde edilen indirgenmiş veri seti, orijinal veriden elde edilen sonuçlardan çok farklı olmamalıdır.
- Veri Küpü Birleştirme: OLAP sistemlerinde verilerin ön hesaplanması ve özetlenmesi (örn: aylık satışların yıllık temele dönüştürülmesi).
- Boyut İndirgeme: Analizle ilgisi olmayan veya gereksiz özelliklerin çıkarılması (özellik seçimi). Algoritma verimliliğini artırır, model anlaşılırlığını sağlar.
- Yöntemler: İleriye doğru seçme, geriye doğru eleme, ikisinin birleşimi, bilgi kazanımı (information gain).
- Sarmalama (Wrapper) Yaklaşımı: Madencilik algoritmasıyla birlikte özellik seçimi.
- Süzme (Filter) Yaklaşımı: Algoritmadan bağımsız özellik seçimi.
- Veri Sıkıştırma: Veri kodlama veya dönüşümlerle indirgenmiş gösterim elde etme.
- Kayıpsız (Lossless): Orijinal veri, sıkıştırılmış veriden tekrar elde edilebilir.
- Kayıplı (Lossy): Orijinal verinin gerçeğe yakın bir değeri oluşturulabilir.
- Büyük Sayıların İndirgenmesi: Verilerde yer alan büyük sayıların daha küçük şekillerle temsil edilmesi.
- Parametrik Yöntemler: Regresyon, logaritmik doğrusal regresyon (veri parametreleri saklanır).
- Parametrik Olmayan Yöntemler: Histogramlar (verileri aralıklara bölme), kümeleme (verileri kümelere ayırma), örnekleme (geniş veri kümesinin alt kümesiyle temsil edilmesi).
4. Veri Dönüştürme 🔄
Verilerin veri madenciliği algoritmaları için uygun formlara dönüştürülmesidir.
- Düzeltme: Bölmeleme, kümeleme ve regresyon gibi tekniklerle verilerdeki gürültünün temizlenmesi.
- Bir Araya Getirme: Gruplama fonksiyonları kullanarak verileri bir araya getirme (örn: günlük veriyi aylık temele dönüştürme).
- Genelleme: Düşük düzeydeki verinin kavram hiyerarşisi kullanarak daha yüksek seviyeye dönüştürülmesi (örn: yaş -> genç, orta yaşlı, yaşlı).
- Normalleştirme veya Standartlaştırma: Sayısal veri değerlerinin küçük bir bölgede yer alması için ölçeklenmesi. Algoritmaların öğrenme hızını artırır.
- Enk-Enb Normalleştirme (Min-Max): Veriyi belirli bir aralığa (genellikle [0,1]) ölçekler.
- Formül:
X* = (X - X_enk) / (X_enb - X_enk) - Örnek: X={251, 148, 166, 244, 472, 356, 379} için X_enk=148, X_enb=472. Dönüştürülmüş değerler [0, 1] aralığında olacaktır.
- Formül:
- z-Skor Normalleştirme: Veriyi ortalaması 0 ve standart sapması 1 olacak şekilde dönüştürür.
- Formül:
X* = (X - Ortalama) / Standart Sapma - Örnek: X={251, 148, 166, 244, 472, 356, 379} için ortalama=288, standart sapma=118.71. Dönüştürülmüş değerler -1.179 ile 1.550 arasında olacaktır.
- Formül:
- Ondalık Ölçekleme: Değişkenin maksimum mutlak değeri ile bağlantılı olarak ondalık bölümü hareket ettirerek normalleştirme.
- Formül:
X* = X / 10^j(j, X'in maksimum mutlak değerini 1'den küçük yapacak en küçük tam sayı) - Örnek: X={251, 148, 166, 244, 472, 356, 379} için j=3 alınırsa, 251 -> 0.251, 472 -> 0.472.
- Formül:
- Enk-Enb Normalleştirme (Min-Max): Veriyi belirli bir aralığa (genellikle [0,1]) ölçekler.
- Özellik Oluşturma: Madencilik sürecine yardımcı olmak için mevcut özelliklerden yeni özellikler türetme (örn: yükseklik ve genişlikten alan oluşturma).
📏 Benzerlik ve Uzaklık Ölçüleri
Veri madenciliği uygulamalarında nesneler arasındaki benzerlik veya farklılık derecesinin sayısal olarak belirlenmesi esastır.
- Benzerlik: İki nesnenin birbirine benzeme derecesinin sayısal bir ölçüsüdür. Genellikle [0,1] aralığında ölçeklendirilir (0: hiç benzerlik yok, 1: tam benzerlik).
- Uzaklık: İki nesnenin birbirinden farklılık derecesinin sayısal bir ölçüsüdür. Genellikle [0,∞) aralığındadır. Yüksek uzaklık, düşük benzerlik anlamına gelir.
- Yakınlık: Benzerlik ve uzaklık kavramlarının ortak ifadesidir.
1. Dönüşümler 🔄
Benzerlik ve uzaklık ölçüm değerlerinin birbirlerine dönüştürülmesinde veya belirli bir aralığa ([0,1] gibi) ölçeklendirilmesinde kullanılır.
- [0,1] Aralığına Ölçekleme:
- Benzerlik için:
s' = (s - enk(s)) / (enb(s) - enk(s)) - Uzaklık için:
d' = (d - enk(d)) / (enb(d) - enk(d))
- Benzerlik için:
- Benzerlik-Uzaklık Geçişleri:
- Sonlu aralıkta ([0,1]):
d = 1 - sveyas = 1 - d - Sonsuz aralıkta ([0,∞)):
s = 1 / (1 + d),s = e^(-d)veyas = 1 - (d - enk(d)) / (enb(d) - enk(d))
- Sonlu aralıkta ([0,1]):
2. Basit Nitelikler Arasındaki Yakınlık 🤝
- Sınıflayıcı Nitelikler:
- Benzerlik: Aynı ise 1, farklı ise 0.
- Uzaklık: Aynı ise 0, farklı ise 1.
- Sıra Gösteren Nitelikler:
- Değerler tam sayılarla eşleştirilir (örn: kötü=0, zayıf=1...).
- Uzaklık:
d(x,y) = |x - y| / (n - 1)(n: sonuç sayısı). - Benzerlik:
s(x,y) = 1 - d.
- Aralıklı/Oransal Nitelikler:
- Uzaklık:
d(x,y) = |x - y|. - Benzerlik: Sonsuz aralık dönüşümleri kullanılır.
- Uzaklık:
3. Nicel Değişkenler İçin Yakınlık Ölçüleri 🔢
- Öklid Uzaklığı: İki nokta arasındaki en kısa doğrusal uzaklık.
- Formül:
d_ij = sqrt(sum((x_ik - x_jk)^2)) - Özellikler: En yaygın, ölçek farklılıklarından etkilenir, değişkenlerin bağımsız olduğunu varsayar, [0,∞) aralığında değer alır.
- Formül:
- Karesel Öklid Uzaklığı: Öklid uzaklığının karesidir, karekök alınmaz.
- Formül:
d_ij^2 = sum((x_ik - x_jk)^2) - Özellikler: Aykırı değerlere daha fazla ağırlık verir.
- Formül:
- Karl Pearson Uzaklığı: Standartlaştırılmış Öklid uzaklığıdır, değişkenin varyansına oranlanır.
- Formül:
d_ij = sqrt(sum(((x_ik - x_jk) / s_k)^2))(s_k: k'ıncı değişkenin standart sapması) - Özellikler: Ölçek farklılıklarını ortadan kaldırır, büyük varyansa sahip değişkenlere daha az ağırlık verir.
- Formül:
- Manhattan (City-Block) Uzaklığı: Birimler arası farkların mutlak değerinin toplamı.
- Formül:
d_ij = sum(|x_ik - x_jk|) - Özellikler: L1 normu, aykırı değerlere karşı hassasiyeti düşüktür, değişkenler arasında ilişki olmaması durumunda kullanılır.
- Formül:
- Minkowski Uzaklığı: Öklid ve Manhattan uzaklıklarını kapsayan genel bir uzaklık ölçüsüdür.
- Formül:
d_ij = (sum(|x_ik - x_jk|^λ))^(1/λ) - Özellikler: λ=1 için Manhattan, λ=2 için Öklid uzaklığı elde edilir.
- Formül:
- Pearson Korelasyon Katsayısı: İki değişken arasındaki doğrusal ilişkinin yönünü ve derecesini ölçer.
- Formül:
r_xy = cov(x,y) / (sd(x) * sd(y)) - Özellikler: [-1,+1] aralığında değer alır (-1: tam ters ilişki, +1: tam doğru ilişki, 0: ilişki yok).
- Formül:
- Korelasyon Uzaklığı: Pearson korelasyon katsayısından türetilen bir uzaklık ölçüsüdür.
- Formül:
d_xy = (1 - r_xy) / 2 - Özellikler: [0,1] aralığında değer alır.
- Formül:
- Açısal Benzerlik (Cosine Similarity): İki vektör arasındaki açının kosinüsünü kullanarak benzerliği belirler.
- Formül:
s_xy = (x . y) / (||x|| * ||y||) - Özellikler: [-1,1] aralığında değer alır, metin madenciliğinde ve kümeleme analizinde sıkça kullanılır, vektörlerin büyüklüğünden ziyade yönüne odaklanır.
- Formül:
- Mahalanobis Uzaklığı: İki vektör arasındaki uzaklığı, verilerin kovaryans yapılarını da dikkate alarak belirler.
- Formül:
d_xy = sqrt((x - y)^T * S^-1 * (x - y))(S: kovaryans matrisi) - Özellikler: Kümeleme analizi ve aykırı değer tespitinde kullanılır, değişkenler arası ilişkileri hesaba katar.
- Formül:
4. İki Sonuçlu (Binary) Değişkenler İçin Yakınlık Ölçüleri ☯️
Bu değişkenler sadece evet/hayır, var/yok gibi değerler alır. Yakınlık ölçümleri için kontenjans tablosu kullanılır (a: 0-0 eşleşmesi, b: 1-0 eşleşmesi, c: 0-1 eşleşmesi, d: 1-1 eşleşmesi).
- Basit Eşleştirme Katsayısı: Hem '0-0' hem de '1-1' eşleşmelerini dikkate alır.
- Formül:
s_ij = (a + d) / (a + b + c + d) - Uzaklık:
d_ij = 1 - s_ij = (b + c) / (a + b + c + d)
- Formül:
- Binary Öklid Uzaklığı: İki nesnenin eşleşmeyen değişken sayıları üzerinden hesaplanır.
- Formül:
d_ij = sqrt(b + c) - Karesel Binary Öklid Uzaklığı:
d_ij^2 = b + c
- Formül:
- Jaccard Benzerlik Katsayısı: Sadece '1-1' eşleşmelerini (değişkenin varlığını) önemser, '0-0' eşleşmelerini göz ardı eder.
- Formül:
s_ij = d / (b + c + d) - Uzaklık:
d_ij = 1 - s_ij = (b + c) / (b + c + d)
- Formül:
💡 Sonuç
Veri madenciliği süreçlerinde elde edilen sonuçların doğruluğu ve güvenilirliği, verinin kalitesine ve doğru analiz yöntemlerinin seçimine bağlıdır. Temel değişken tiplerinin anlaşılması, verinin doğru bir şekilde temsil edilmesini sağlar. Veri temizleme, birleştirme, indirgeme ve dönüştürme gibi hazırlık aşamaları, ham verideki kusurları gidererek analiz için sağlam bir temel oluşturur. Ayrıca, nesneler arasındaki ilişkileri nicel olarak ifade eden benzerlik ve uzaklık ölçüleri, kümeleme, sınıflandırma ve aykırı değer tespiti gibi ileri düzey veri madenciliği görevleri için vazgeçilmez araçlardır. Bu kavramların bütünsel olarak ele alınması, veri madenciliğinden elde edilecek içgörülerin değerini maksimize eder.








