Veri Madenciliğinde Veri Hazırlama ve Yakınlık Ölçümleri Çalışma Materyali
Kaynak Bilgisi: Bu çalışma materyali, kullanıcı tarafından sağlanan ders transkripti ve kopyalanmış metin kaynaklarından derlenmiştir.
📚 Giriş
Veri madenciliği, 1990'lı yıllardan itibaren Radyo Frekansı ile Tanımlama (RFID), barkod ve veri depolama araçları gibi teknolojilerle birlikte gelişen, geniş veritabanlarından önceden bilinmeyen, geçerli ve uygulanabilir bilgilerin elde edilerek işletme kararlarında kullanılmasını sağlayan bir alandır (Metin Kaynağı, Ders Transkripti). Bu süreçte, ham verinin analize hazır hale getirilmesi, yani veri hazırlama, kritik bir adımdır ve analiz kalitesini doğrudan etkiler. Veri hazırlama, veri temizleme, birleştirme, indirgeme ve dönüştürme gibi aşamaları içerir (Ders Transkripti). Ayrıca, veri madenciliği uygulamalarında nesneler arasındaki ilişkileri anlamak için benzerlik ve uzaklık ölçüleri de büyük önem taşır (Ders Transkripti). Bu çalışma materyali, temel değişken tiplerini, veri hazırlama tekniklerini ve çeşitli yakınlık ölçülerini detaylı bir şekilde ele almaktadır.
📊 Veri Madenciliğinde Veri Hazırlama
Veri madenciliği projelerinde ham veriler genellikle kusurludur; hatalar, eksik değerler veya tutarsızlıklar içerebilir (Metin Kaynağı). Bu kusurları gidermek ve veri kalitesini artırmak için veri hazırlama süreçleri uygulanır. Veri hazırlama, veri analistinin zamanının %80'ini harcamasına neden olan ancak veri madenciliği çıktısının kalitesini artıran bir aşamadır (Metin Kaynağı).
1. Temel Değişken Tipleri
Hakkında bilgi edinilmek istenen canlı veya cansız varlıkların sahip olduğu ve birbirinden ayırt edilmesine yardımcı olan özellikler, veri madenciliğinde bir veri setinin sütunlarında yer alır (Metin Kaynağı). Bu özelliklerin sayısal olarak ifade edilmesine ölçme denir. Ölçme, hangi ölçek ile yapıldığına göre değişken tiplerini belirler (Metin Kaynağı).
- İsimsel (Nominal) Değişkenler: Gözlem değerlerini nitel kategori veya sınıflara atayan ölçeklerdir. Sayısal bir formda olabilirler ancak matematiksel işlemler için uygun değildirler (örn. cinsiyet, ürün türü) (Metin Kaynağı).
- İkili (Binary) Değişkenler: İsimsel değişkenlerin özel bir şeklidir; sadece iki sonuç (0/1, doğru/yanlış, erkek/kadın) alırlar (Metin Kaynağı).
- Sıra Gösteren (Ordinal) Değişkenler: İsimsel değişkenlere benzer ancak değerler arasında bir sıralama veya derecelendirme söz konusudur (örn. eğitim seviyesi, ürün kalitesi: kötü, orta, iyi) (Metin Kaynağı).
- Tam Sayılı (Integer) Değişkenler: Sadece 0, 1, 2 gibi tam sayı değerleri alabilen değişkenlerdir (örn. çocuk sayısı, satılan ekmek sayısı). Toplama, çıkarma, çarpma işlemleri anlamlıdır (Metin Kaynağı).
- Aralıklı Ölçümlendirilmiş (Interval-Scaled) Değişkenler: Sıra gösteren değişkenlerin tüm özelliklerini içerir ve birimler arası farklar matematiksel olarak belirlenebilir. Belirli bir başlangıç noktası yoktur, sıfır yokluk anlamına gelmez (örn. hava sıcaklığı, takvim yılı) (Metin Kayinagi).
- Oranlı Ölçümlendirilmiş (Ratio-Scaled) Değişkenler: Aralıklı ölçümlendirilmiş değişkenlere benzer ancak sıfır, yokluk anlamına gelir ve oransal analizlere olanak tanır (örn. ağırlık, boy, gelir) (Metin Kaynağı).
Bu değişken tipleri genel olarak kategorik (isimsel, ikili, sıra gösteren) ve sürekli (tam sayılı, aralıklı, oranlı) değişkenler olarak iki grupta toplanabilir (Metin Kaynağı).
2. Veri Hazırlama Süreçleri
Veri madenciliği uygulamalarında, verilerin kusurlarını gidermek ve analize uygun hale getirmek için çeşitli ön hazırlık süreçleri uygulanır (Metin Kaynağı).
2.1. Veri Temizleme (Data Cleaning)
Verideki tutarsızlıkları ve gürültüyü gidermek, eksik verileri tamamlamak için uygulanır (Metin Kaynağı).
- Eksik Veri: Boş veya eksik değerler, veri toplama hataları, veri giriş problemleri veya veri tutarsızlıkları nedeniyle oluşabilir. Stratejiler:
- Veri nesne veya özelliklerini elemek (kayıtları veya sütunları çıkarmak).
- Eksik veriyi tahmin etmek (ortalama, medyan, mod ile doldurma veya regresyon gibi yöntemlerle).
- Eksik veriyi göz ardı etmek (algoritmanın eksik veriye duyarsız hale getirilmesi) (Metin Kaynağı).
- Gürültülü Veri: Beklenen değerlerden sapan aykırı değerler veya hatalardır. Bölmeleme, kümeleme, bilgisayar ve insan denetimi, regresyon yöntemleri ile düzeltilebilir (Metin Kaynağı).
- Tutarsız Veri: Veritabanı kayıt işlemlerinde oluşan hatalardır. Elle düzeltme veya bilgi mühendisliği araçları ile giderilebilir (Metin Kaynağı).
2.2. Veri Birleştirme (Data Integration)
Çoklu kaynaklardan (veritabanları, veri küpleri, dosyalar) gelen verinin uygun bir veri ambarında birleştirilmesidir. Şema birleştirme, veri fazlalığı yönetimi ve veri değer karmaşıklıklarının çözümlenmesi temel konularıdır (Metin Kaynağı).
2.3. Veri İndirgeme (Data Reduction)
Büyük veri kümelerinin analiz süresini kısaltmak için veri hacmini azaltma yöntemleridir.
- Veri Küpü Birleştirme: OLAP sistemlerinde verilerin ön hesaplanması ve özetlenmesi (örn. aylık satışların yıllık temele dönüştürülmesi) (Metin Kaynağı).
- Boyut İndirgeme: Analizle ilgisi olmayan veya gereksiz özelliklerin çıkarılması (örn. özellik seçimi, sarmalama/süzme yaklaşımları) (Metin Kaynağı).
- Veri Sıkıştırma: Verinin daha küçük bir gösterimini elde etmek için kodlama veya dönüşümler (kayıpsız veya kayıplı sıkıştırma) (Metin Kaynağı).
- Büyük Sayıların İndirgenmesi: Veri hacmini azaltmak için parametrik (regresyon) veya parametrik olmayan (histogramlar, kümeleme, örnekleme) yöntemler (Metin Kaynağı).
2.4. Veri Dönüştürme (Data Transformation)
Verileri veri madenciliği algoritmaları için uygun formlara dönüştürme işlemidir.
- Düzeltme: Bölmeleme, kümeleme ve regresyon gibi tekniklerle verilerdeki gürültünün temizlenmesi (Metin Kaynağı).
- Bir Araya Getirme: Gruplama fonksiyonları kullanarak verilerin bir araya getirilmesi (örn. günlük verinin aylık temele dönüştürülmesi) (Metin Kaynağı).
- Genelleme: Düşük düzeydeki verinin kavram hiyerarşisi kullanılarak daha yüksek seviyeye dönüştürülmesi (örn. yaşın "genç, orta yaşlı, yaşlı" kategorilerine dönüştürülmesi) (Metin Kaynağı).
- Normalleştirme/Standartlaştırma: Sayısal veri değerlerinin küçük bir bölgede yer alması için ölçeklenmesidir. Algoritma performansını artırır. Yaygın yöntemler:
- Min-Max Normalleştirme: Veriyi belirli bir aralığa (genellikle [0,1]) ölçekler. Formül:
X* = (X - X_min) / (X_max - X_min)(Metin Kaynağı). - Z-Skor Normalleştirme: Veriyi ortalaması 0 ve standart sapması 1 olacak şekilde dönüştürür. Formül:
X* = (X - μ) / σ(Metin Kaynağı). - Ondalık Ölçekleme: Değişkenin maksimum mutlak değeri ile bağlantılı olarak ondalık bölümü hareket ettirir. Formül:
X* = X / 10^j(Metin Kaynağı).
- Min-Max Normalleştirme: Veriyi belirli bir aralığa (genellikle [0,1]) ölçekler. Formül:
- Özellik Oluşturma: Madencilik sürecine yardımcı olmak için mevcut özelliklerden yeni özellikler türetilmesi (örn. yükseklik ve genişlikten alan özelliğinin oluşturulması) (Metin Kaynağı).
📈 Benzerlik, Uzaklık ve Yakınlık Ölçüleri
Veri madenciliğinde, veri kümesindeki nesneler, desenler veya olaylar arasındaki ilişkileri belirlemek için benzerlik ve uzaklık kavramları kullanılır (Ders Transkripti). Benzerlik, iki nesnenin birbirine benzeme derecesini ([0,1] aralığında), uzaklık ise farklılık derecesini ([0,∞) aralığında) ifade eder (Metin Kaynağı). Bu iki kavramın ortak ifadesi olarak yakınlık terimi de kullanılır (Metin Kaynağı).
1. Kavramlar ve Dönüşümler
- Benzerlik (s): İki nesnenin birbirine benzeme derecesinin sayısal bir ölçüsüdür. Genellikle [0,1] aralığında ölçeklenir; 0 hiç benzerlik yok, 1 tam benzerlik anlamına gelir (Metin Kaynağı).
- Uzaklık (d): İki nesnenin birbirinden farklılık derecesinin sayısal bir ölçüsüdür. Genellikle [0,∞) aralığındadır (Metin Kaynağı).
- Dönüşümler: Benzerlik ve uzaklık ölçüm değerlerini standartlaştırmak veya birbirleri cinsinden ifade etmek için kullanılır (örn.
d = 1 - sveyas = 1 / (1 + d)) (Metin Kaynağı).
2. Nicel Değişkenler İçin Yakınlık Ölçüleri
Nicel (sayısal) değişkenler arasındaki yakınlığı belirlemek için çeşitli ölçüler kullanılır.
- Öklid Uzaklığı: İki nokta arasındaki en yaygın uzaklık ölçüsüdür.
d_ij = sqrt(sum((x_ik - x_jk)^2))formülüyle hesaplanır. [0,∞) aralığında değer alır (Metin Kaynağı). - Karesel Öklid Uzaklığı: Öklid uzaklığının karesidir, karekök alınmaz. Aykırı değerlere daha fazla ağırlık verme eğilimindedir (Metin Kaynağı).
- Karl Pearson Uzaklığı: Öklid uzaklığının değişkenin varyansına oranlanmasıyla elde edilen standartlaştırılmış bir Öklid uzaklığıdır (Metin Kaynağı).
- Manhattan (City-Block) Uzaklığı: Birimler arası farkların mutlak değerlerinin toplamı alınarak hesaplanır.
d_ij = sum(|x_ik - x_jk|)formülü kullanılır (Metin Kaynağı). - Minkowski Uzaklığı: Öklid ve Manhattan uzaklıklarını kapsayan genel bir uzaklık ölçüsüdür.
d_ij = (sum(|x_ik - x_jk|^λ))^(1/λ)formülüyle hesaplanır (Metin Kaynağı). - Pearson Korelasyon Katsayısı ve Korelasyon Uzaklığı: İki değişken arasındaki doğrusal ilişkinin yönünü ve derecesini gösteren bir benzerlik ölçüsüdür ([-1,+1] aralığında). Korelasyon uzaklığı ise
d_xy = (1 - r_xy) / 2formülüyle hesaplanır ([0,1] aralığında) (Metin Kaynağı). - Açısal Benzerlik (Cosine Similarity): İki vektör arasındaki açı farkının kosinüsünü kullanarak benzerliği belirler. Özellikle belge ve metin madenciliğinde kullanılır.
s_xy = (x . y) / (||x|| * ||y||)formülüyle hesaplanır (Metin Kaynağı). - Mahalanobis Uzaklığı: İki vektör arasındaki uzaklığı belirlerken verilerin kovaryans yapılarını da dikkate alır.
d_xy = sqrt((x - y)^T * S^-1 * (x - y))formülüyle hesaplanır (Metin Kaynağı).
3. İki Sonuçlu (Binary) Değişkenler İçin Yakınlık Ölçüleri
İki sonuçlu (evet/hayır, var/yok) değişkenler için yakınlık ölçüleri, kontenjans tabloları kullanılarak hesaplanır.
- Kontenjans Tablosu: İki sonuçlu değişkenler içeren nesne çiftinin karşılıklı eşleşen değerlerinin tekrar sayılarından oluşur (Metin Kaynağı).
a: Her iki nesnede de değişkenin yokluğu (0-0 eşleşmesi).b: Birinci nesnede var, ikinci nesnede yok (1-0 eşleşmesi).c: Birinci nesnede yok, ikinci nesnede var (0-1 eşleşmesi).d: Her iki nesnede de değişkenin varlığı (1-1 eşleşmesi).p: Toplam değişken sayısı (a+b+c+d) (Metin Kaynağı).
- Basit Eşleştirme Katsayısı ve Uzaklığı:
s_ij = (a + d) / (a + b + c + d)ile benzerlik,d_ij = (b + c) / (a + b + c + d)ile uzaklık hesaplanır (Metin Kaynağı). - Binary Öklid ve Karesel Öklid Uzaklığı:
d_ij = sqrt(b + c)ile Binary Öklid,d_ij^2 = b + cile Binary Karesel Öklid uzaklığı hesaplanır (Metin Kaynağı). - Jaccard Benzerlik Katsayısı ve Uzaklığı: Özellikle ekolojik araştırmalarda kullanılır, 0-0 eşleşmelerini göz ardı eder.
s_ij = d / (b + c + d)ile benzerlik,d_ij = 1 - s_ijile uzaklık hesaplanır (Metin Kaynağı).
✅ Sonuç
Veri madenciliğinde başarılı analizler için verinin doğru hazırlanması ve uygun yakınlık ölçülerinin seçimi kritik öneme sahiptir (Ders Transkripti). Temel değişken tiplerinin doğru anlaşılması, veri temizleme, birleştirme, indirgeme ve dönüştürme gibi hazırlık adımlarının titizlikle uygulanması, ham veriyi değerli bilgiye dönüştürmenin temelini oluşturur (Ders Transkripti). Nicel ve ikili değişkenler için farklı benzerlik ve uzaklık ölçülerinin doğru seçimi ve uygulanması, veri setindeki gizli yapıları ve ilişkileri ortaya çıkarmak için kritik bir rol oynar (Ders Transkripti). Bu süreçler, veri madenciliği projelerinin güvenilirliğini ve etkinliğini doğrudan etkileyerek, elde edilen sonuçların doğruluğunu ve uygulanabilirliğini artırır (Ders Transkripti).








