Veri Madenciliğinde Veri Hazırlama ve Yakınlık Ölçüleri - kapak
Teknoloji#veri madenciliği#veri hazırlama#değişken tipleri#veri temizleme

Veri Madenciliğinde Veri Hazırlama ve Yakınlık Ölçüleri

Bu özet, veri madenciliğinde veri hazırlama süreçlerini, temel değişken tiplerini ve nesneler arası benzerlik ile uzaklık ölçümlerini akademik bir yaklaşımla incelemektedir.

tglclk26 Mart 2026 ~26 dk toplam
01

Sesli Özet

8 dakika

Konuyu otobüste, koşarken, yolda dinleyerek öğren.

Sesli Özet

Veri Madenciliğinde Veri Hazırlama ve Yakınlık Ölçüleri

0:007:58
02

Flash Kartlar

25 kart

Karta tıklayarak çevir. ← → ile gez, ⎵ ile çevir.

1 / 25
Tüm kartları metin olarak gör
  1. 1. Veri madenciliğinin temel amacı nedir?

    Veri madenciliğinin temel amacı, geniş veri tabanlarından önceden bilinmeyen, geçerli ve uygulanabilir bilgileri elde ederek işletme kararlarında kullanmaktır. Bu süreç, ham verideki gizli desenleri ve ilişkileri ortaya çıkarmayı hedefler. Böylece, işletmeler daha bilinçli ve stratejik kararlar alabilirler.

  2. 2. Veri madenciliği analizlerinin kalitesini artırmak için veri hazırlama aşaması neden kritiktir?

    Veri madenciliği analizlerinin kalitesini artırmak için veri hazırlama aşaması kritiktir çünkü farklı kaynaklardan gelen ham veriler genellikle hatalar, kayıp değerler veya aykırı değerler içerebilir. Bu kusurlar, analiz sonuçlarının güvenilirliğini ve doğruluğunu olumsuz etkiler. Veri hazırlama, bu kusurları gidererek veriyi analize uygun hale getirir.

  3. 3. Benzerlik ve uzaklık ölçüleri veri madenciliğinde hangi amaçlarla kullanılır?

    Benzerlik ve uzaklık ölçüleri, veri kümesindeki birimler arasındaki benzerlik veya farklılık derecesini matematiksel olarak belirlemek amacıyla kullanılır. Bu ölçüler, kümeleme analizi, aykırı değer tespiti ve sınıflandırma gibi veri madenciliği tekniklerinin temelini oluşturur. Nesneler arasındaki ilişkileri nicel olarak ifade ederek algoritmaların daha doğru çalışmasını sağlarlar.

  4. 4. İsimsel (Nominal) değişken nedir ve bir örnek veriniz?

    İsimsel (Nominal) değişkenler, kategorik sınıflandırma yapan ve değerleri arasında herhangi bir sıralama veya nicel ilişki bulunmayan değişkenlerdir. Sadece farklı kategorileri temsil ederler. Örneğin, 'Medeni Durum' (Evli, Bekar, Boşanmış) veya 'Göz Rengi' (Mavi, Kahverengi, Yeşil) isimsel değişkenlerdir.

  5. 5. İkili (Binary) değişken nedir ve veri madenciliğindeki önemi nedir?

    İkili (Binary) değişkenler, sadece iki olası sonucu ifade eden özel bir isimsel değişken türüdür. Genellikle 'Evet/Hayır', 'Doğru/Yanlış' veya '0/1' gibi değerler alırlar. Veri madenciliğinde, belirli bir özelliğin varlığını veya yokluğunu belirtmek için sıkça kullanılırlar ve bazı algoritmalar için doğrudan uygun bir formattır.

  6. 6. Sıra gösteren (Ordinal) değişkenleri tanımlayınız ve isimsel değişkenlerden farkını açıklayınız.

    Sıra gösteren (Ordinal) değişkenler, değerleri arasında belirli bir sıralama ilişkisi barındıran ancak bu değerler arasındaki farkların nicel olarak anlamlı olmadığı değişkenlerdir. Örneğin, 'Eğitim Seviyesi' (İlkokul, Ortaokul, Lise, Üniversite) bir sıra gösteren değişkendir. İsimsel değişkenlerden farkı, isimsel değişkenlerde sıralama olmamasıdır; sadece kategorik ayrım vardır.

  7. 7. Tam sayılı (Integer) değişkenler hangi tür verileri temsil eder ve matematiksel işlemlere uygun mudur?

    Tam sayılı (Integer) değişkenler, tam sayı değerleri alan ve nicel ölçümleri temsil eden değişkenlerdir. Örneğin, 'Öğrenci Sayısı' veya 'Ürün Adedi' gibi veriler tam sayılıdır. Bu değişkenler, toplama, çıkarma, çarpma gibi matematiksel işlemlere tamamen uygundur ve nicel analizlerde önemli bir yer tutar.

  8. 8. Aralıklı ölçümlendirilmiş (Interval-scaled) değişkenlerin özelliklerini açıklayınız.

    Aralıklı ölçümlendirilmiş (Interval-scaled) değişkenler, değerleri arasında eşit aralıklar bulunan ancak mutlak bir sıfır noktasına sahip olmayan nicel değişkenlerdir. Bu nedenle, oranlama işlemleri anlamlı değildir. Örneğin, 'Sıcaklık' (Celsius veya Fahrenheit) aralıklı bir değişkendir; 20 derece 10 dereceden iki kat sıcak değildir, ancak aradaki fark sabittir.

  9. 9. Oranlı ölçümlendirilmiş (Ratio-scaled) değişkenler aralıklı değişkenlerden nasıl ayrılır?

    Oranlı ölçümlendirilmiş (Ratio-scaled) değişkenler, aralıklı değişkenler gibi eşit aralıklara sahip olmanın yanı sıra, mutlak bir sıfır noktasına da sahiptirler. Bu mutlak sıfır noktası, 'hiçbir şeyin olmaması' anlamına gelir ve oranlama işlemlerini anlamlı kılar. Örneğin, 'Boy', 'Kilo' veya 'Gelir' oranlı değişkenlerdir; 20 kg, 10 kg'ın iki katıdır.

  10. 10. Veri hazırlama sürecinin dört ana adımı nelerdir?

    Veri hazırlama sürecinin dört ana adımı şunlardır: Veri Temizleme, Veri Birleştirme, Veri İndirgeme ve Veri Dönüştürme. Bu adımlar, ham verideki kusurları gidererek, farklı kaynaklardan gelen verileri bir araya getirerek, veri hacmini azaltarak ve verileri analiz algoritmaları için uygun formata dönüştürerek analiz kalitesini artırmayı hedefler.

  11. 11. Veri Temizleme nedir ve hangi tür kusurları gidermeyi amaçlar?

    Veri Temizleme, ham verideki eksik verilerin tamamlanması, gürültülü verilerin (hatalar veya aykırı değerler) düzeltilmesi ve tutarsızlıkların giderilmesini içeren bir süreçtir. Amacı, veri setinin doğruluğunu, tutarlılığını ve güvenilirliğini artırarak sonraki analizlerin kalitesini yükseltmektir. Bu sayede, hatalı veya eksik bilgilerden kaynaklanan yanlış sonuçların önüne geçilir.

  12. 12. Eksik verilerle başa çıkmak için kullanılan üç stratejiyi açıklayınız.

    Eksik verilerle başa çıkmak için çeşitli stratejiler mevcuttur. Bunlar arasında eksik verileri içeren kayıtların tamamen 'eleme'si, eksik değerlerin istatistiksel yöntemlerle (ortalama, medyan, mod) veya daha gelişmiş modellerle 'tahmin etme'si ve bazı durumlarda eksik değerlerin analiz sürecinde 'göz ardı etme'si yer alır. Her stratejinin veri setine ve analiz hedeflerine göre avantajları ve dezavantajları bulunur.

  13. 13. Gürültülü veriler veri temizleme aşamasında nasıl düzeltilebilir?

    Gürültülü veriler, veri temizleme aşamasında çeşitli yöntemlerle düzeltilebilir. Bu yöntemler arasında 'bölmeleme' (veriyi sıralayıp eşit boyutlu bölmelere ayırma ve her bölmedeki değerleri ortalama veya medyan ile değiştirme), 'kümeleme' (benzer verileri gruplandırarak aykırı değerleri tespit etme) ve 'regresyon' (diğer değişkenler arasındaki ilişkiyi kullanarak gürültülü değerleri tahmin etme) bulunur. Bu teknikler, veri setindeki hataları ve aykırı değerleri azaltmaya yardımcı olur.

  14. 14. Veri Birleştirme nedir ve bu süreçte hangi konular ele alınır?

    Veri Birleştirme, farklı kaynaklardan gelen verilerin uygun bir veri ambarında veya tek bir veri setinde birleştirilmesini sağlayan bir veri hazırlama adımıdır. Bu süreçte 'şema birleştirme' (farklı veri şemalarını uyumlu hale getirme), 'veri fazlalığı' (aynı bilginin birden fazla yerde bulunması) ve 'veri değeri karmaşıklığı' (farklı kaynaklardaki aynı verinin farklı formatlarda veya değerlerde olması) gibi konular ele alınır. Amacı, bütünsel bir veri görünümü sağlamaktır.

  15. 15. Veri İndirgeme nedir ve temel amacı nedir?

    Veri İndirgeme, büyük veri kümelerinin analiz süresini kısaltmak ve depolama maliyetlerini düşürmek amacıyla veri hacmini azaltmayı amaçlayan bir veri hazırlama adımıdır. Bu süreç, veri kalitesini veya analiz sonuçlarının doğruluğunu önemli ölçüde etkilemeden veri setinin boyutunu küçültmeyi hedefler. Daha küçük veri setleri üzerinde algoritmalar daha hızlı çalışabilir.

  16. 16. Veri İndirgeme yöntemlerinden üçünü açıklayınız.

    Veri İndirgeme için çeşitli yöntemler kullanılır. 'Boyut İndirgeme' (özellik seçimi veya özellik çıkarımı ile değişken sayısını azaltma), 'Veri Sıkıştırma' (kayıpsız veya kayıplı algoritmalarla veriyi daha az yer kaplayacak şekilde kodlama) ve 'Büyük Sayıların İndirgenmesi' (histogramlar, kümeleme veya örnekleme gibi tekniklerle veri noktası sayısını azaltma) bu yöntemlerden bazılarıdır. Her biri farklı yaklaşımlarla veri hacmini küçültür.

  17. 17. Veri Dönüştürme nedir ve veri madenciliği algoritmaları için neden önemlidir?

    Veri Dönüştürme, verilerin madencilik algoritmaları için uygun formlara dönüştürülmesi işlemidir. Bu, düzeltme, bir araya getirme, genelleme, normalleştirme ve özellik oluşturma gibi işlemleri kapsar. Veri madenciliği algoritmaları genellikle belirli veri formatlarını veya ölçeklerini daha iyi işler; bu nedenle dönüştürme, algoritmaların performansını ve öğrenme yeteneğini artırmak için kritik öneme sahiptir.

  18. 18. Normalleştirme nedir ve sayısal veriler için neden önemlidir?

    Normalleştirme, sayısal veri değerlerini belirli bir aralığa (örneğin [0,1] veya [-1,1]) ölçekleyerek algoritmaların öğrenme hızını ve performansını artıran bir veri dönüştürme tekniğidir. Farklı ölçeklerdeki değişkenlerin, büyük değerlere sahip değişkenlerin analizi domine etmesini engeller. Bu, özellikle uzaklık tabanlı algoritmalar için önemlidir, çünkü tüm değişkenlerin eşit ağırlıkta değerlendirilmesini sağlar.

  19. 19. Üç farklı normalleştirme yöntemini açıklayınız.

    Üç farklı normalleştirme yöntemi şunlardır: 'Min-Max Normalizasyonu', verileri belirli bir minimum ve maksimum değer aralığına (genellikle [0,1]) ölçekler. 'Z-skor Normalizasyonu', verileri ortalaması 0 ve standart sapması 1 olacak şekilde dönüştürür, aykırı değerlere karşı daha dayanıklıdır. 'Ondalık Ölçekleme', verileri ondalık noktayı kaydırarak belirli bir aralığa getirir ve genellikle logaritmik dönüşümlerle birlikte kullanılır.

  20. 20. Benzerlik ve uzaklık arasındaki ilişkiyi ve dönüşümünü açıklayınız.

    Benzerlik, iki nesnenin birbirine benzeme derecesini, uzaklık ise farklılık derecesini ölçer. Bu ölçümler genellikle [0,1] aralığında normalleştirilir; '0' benzerlik olmamasını, '1' ise tam benzerliği ifade eder. Benzerlik ve uzaklık değerleri arasında dönüşümler yapılabilir; örneğin, sonlu aralıktaki benzerlik değerleri için uzaklık '1 - benzerlik' olarak hesaplanabilir. Bu, iki kavramın birbirinin tamamlayıcısı olduğunu gösterir.

  21. 21. Nicel değişkenler için en yaygın uzaklık ölçülerinden ikisini belirtin ve kısaca açıklayın.

    Nicel değişkenler için en yaygın uzaklık ölçülerinden ikisi 'Öklid Uzaklığı' ve 'Manhattan Uzaklığı'dır. Öklid uzaklığı, iki nokta arasındaki en kısa mesafeyi (Pisagor bağıntısı) hesaplar ve geometrik olarak sezgiseldir. Manhattan uzaklığı (City-Block), iki nokta arasındaki mutlak farkların toplamını kullanır ve bir şehirdeki bloklar arasında hareket etmeye benzer bir mesafeyi temsil eder.

  22. 22. Öklid uzaklığının veri madenciliğindeki bir dezavantajı nedir?

    Öklid uzaklığının veri madenciliğindeki bir dezavantajı, ölçek farklılıklarından kolayca etkilenmesidir. Eğer bir değişkenin değer aralığı diğerlerinden çok daha büyükse, bu değişkenin uzaklık hesaplaması üzerindeki etkisi orantısız derecede artar. Bu durum, normalleştirme yapılmadığında yanıltıcı sonuçlara yol açabilir ve tüm değişkenlerin eşit ağırlıkta değerlendirilmesini engeller.

  23. 23. Manhattan (City-Block) uzaklığının aykırı değerlere karşı hassasiyeti nasıldır?

    Manhattan (City-Block) uzaklığı, mutlak farkların toplamını kullandığı için Öklid uzaklığına kıyasla aykırı değerlere karşı daha az hassastır. Öklid uzaklığı farkların karelerini aldığı için büyük farklar daha da büyürken, Manhattan uzaklığı doğrusal bir toplama yapar. Bu özellik, aykırı değerlerin uzaklık hesaplaması üzerindeki etkisini bir miktar yumuşatır.

  24. 24. Minkowski uzaklığı nedir ve hangi uzaklıkları kapsar?

    Minkowski uzaklığı, Öklid ve Manhattan uzaklıklarını kapsayan genel bir uzaklık ölçüsüdür. 'p' parametresine bağlı olarak farklı uzaklık ölçümleri sağlar. 'p=1' olduğunda Manhattan uzaklığına, 'p=2' olduğunda ise Öklid uzaklığına dönüşür. Bu esnek yapısı sayesinde, farklı veri dağılımlarına ve analiz ihtiyaçlarına göre ayarlanabilir bir ölçü sunar.

  25. 25. Pearson Korelasyon Katsayısı neyi ölçer ve Korelasyon Uzaklığı bu katsayıdan nasıl türetilir?

    Pearson Korelasyon Katsayısı, iki değişken arasındaki doğrusal ilişkinin yönünü ve derecesini ölçer. Değerleri -1 ile +1 arasında değişir; +1 tam pozitif, -1 tam negatif doğrusal ilişkiyi, 0 ise doğrusal ilişki olmadığını gösterir. Korelasyon Uzaklığı ise bu katsayıdan türetilir, genellikle '1 - Pearson Korelasyon Katsayısı' şeklinde hesaplanır. Bu sayede, yüksek korelasyon düşük uzaklığa, düşük korelasyon ise yüksek uzaklığa karşılık gelir.

03

Bilgini Test Et

15 soru

Çoktan seçmeli sorularla öğrendiklerini ölç. Cevap + açıklama.

Soru 1 / 15Skor: 0

Veri madenciliğinin temel amacı nedir?

04

Detaylı Özet

8 dk okuma

Tüm konuyu derinlemesine, başlık başlık.

Bu çalışma materyali, ders notları, ders kaydı transkripti ve sağlanan PDF/PowerPoint metinlerinden derlenmiştir.


Veri Madenciliğinde Veri Hazırlama ve Yakınlık Ölçüleri Çalışma Materyali 📚

🎯 Giriş

Veri madenciliği, 1990'lı yıllardan itibaren RFID, barkod ve veri depolama araçları gibi teknolojilerle birlikte sürekli bir gelişim göstermiştir. Temel amacı, geniş veri tabanlarından önceden bilinmeyen, geçerli ve uygulanabilir bilgileri elde ederek işletme kararlarında kullanmaktır. Bu süreçte, ham verinin analize hazır hale getirilmesi büyük önem taşır. Farklı kaynaklardan gelen veriler genellikle hatalar, kayıp değerler veya aykırı değerler içerebilir. Bu nedenle, veri madenciliği analizlerinin kalitesini ve güvenilirliğini artırmak için veri hazırlama aşaması kritik bir rol oynar. Veri hazırlama, verinin temizlenmesi, birleştirilmesi, indirgenmesi ve dönüştürülmesi gibi işlemleri kapsar. Ayrıca, veri kümesindeki birimler arasındaki benzerlik veya farklılık derecesini matematiksel olarak belirlemek amacıyla benzerlik ve uzaklık ölçüleri kullanılır. Bu ölçüler, kümeleme analizi, aykırı değer tespiti ve sınıflandırma gibi veri madenciliği tekniklerinin temelini oluşturur.

📊 Temel Değişken Tipleri

Veri madenciliğinde, hakkında bilgi edinilmek istenen varlıkların özelliklerini ifade eden değişkenler, veri setinin sunumunda sütunlarda yer alır. Bu değişkenlerin doğru anlaşılması ve kullanılması, veri analizinin başarısı için esastır. Ölçme, birimlerin sahip olduğu özelliklerin derecesinin belirlenerek sonuçların sayısal olarak ifade edilmesidir. Temel değişken tipleri şunlardır:

  • İsimsel (Nominal) Değişkenler: Gözlem değerlerinin nitel kategori veya sınıflara atandığı ölçeklerdir (örn: cinsiyet, ürün türü). Sayısal formda olabilirler ancak matematiksel işlem anlamlı değildir.
  • İkili (Binary) Değişkenler: İsimsel değişkenlerin özel bir şekli olup sadece iki olası sonucu ifade eder (örn: 0/1, doğru/yanlış, erkek/kadın).
  • Sıra Gösteren (Ordinal) Değişkenler: Değerler arasında bir sıralama ilişkisi barındırır (örn: eğitim seviyesi, ürün kalitesi: kötü, orta, iyi). Eşitlik ve sıralama ölçüsünü kullanır.
  • Tam Sayılı (Integer) Değişkenler: Alacağı değerler 0, 1, 2, ... gibi tam sayılar olarak belirtilebilen değişkenlerdir (örn: çocuk sayısı, satılan ekmek sayısı). Ondalıklı değer almaz.
  • Aralıklı Ölçümlendirilmiş (Interval-Scaled) Değişkenler: Sıra gösteren değişkenlerin tüm özelliklerini içerir ve birimler arası farklar matematiksel olarak belirlenebilir. Belirli bir başlangıç noktası olmamakla birlikte ölçü birimi vardır (örn: hava sıcaklığı). Oran hesaplamaları için uygun değildir.
  • Oranlı Ölçümlendirilmiş (Ratio-Scaled) Değişkenler: Aralıklı ölçümlendirilmiş değişkenlere benzerdir ancak sıfır başlangıç noktası tüm ölçüm araçlarında aynı anlamı taşır (örn: ağırlık, uzunluk). Yokluk anlamına gelen belirli bir sıfır değeri barındırır ve oransal analizlere olanak tanır.

🛠️ Veri Hazırlama Süreçleri

Veri hazırlama, ham verideki kusurları gidererek analiz kalitesini artırmayı hedefler. Bu süreç, veri analistinin zamanının %80'ini harcamasına neden olabilir ancak veri madenciliği çıktısının kalitesini doğrudan etkiler. Dört ana adımdan oluşur:

1. Veri Temizleme ✅

Verideki tutarsızlıkların, gürültünün ve eksik değerlerin giderilmesi işlemidir.

  • Eksik Veri: Bazı özellik değerlerinin boş olması durumudur.
    • Nedenleri: Bilgi vermek istememe, yanlış anlama, veri giriş hatası, tutarsızlık nedeniyle silinme.
    • Stratejiler:
      • Eleme: Eksik veriye sahip nesneleri veya özellikleri çıkarmak. Bilgi kaybına yol açabilir.
      • Tahmin Etme: Eksik veriyi diğer veriler kullanarak tahmin etmek.
        • Manuel doldurma (zaman alıcı).
        • Genel bir sabit kullanma (algoritmaları olumsuz etkileyebilir).
        • Ortalama, medyan, mod gibi tek bir değerle değiştirme.
        • Kendi sınıfındaki değerlerin ortalaması ile tamamlama.
        • Regresyon veya karar ağaçları ile en uygun değeri kullanma (en sık kullanılan yöntem).
      • Göz Ardı Etme: Birçok veri madenciliği algoritması eksik veriyi göz ardı edecek şekilde düzenlenebilir.
  • Gürültülü Veri: Beklenen değerlerden sapan aykırı değerler veya hatalardır.
    • Nedenleri: Hatalı veri toplama, veri girişi problemleri, teknolojik kısıtlar.
    • Düzeltme Yöntemleri: Bölmeleme (verileri sıralayıp bölmelere ayırma), kümeleme (aykırı değerleri gruplardan ayırma), bilgisayar ve insan denetimi, regresyon.
  • Tutarsız Veri: Veritabanı kayıt işlemlerinde oluşan hatalardır. Dış veri kaynakları veya bilgi mühendisliği araçları ile düzeltilebilir.

2. Veri Birleştirme 🔗

Çoklu kaynaklardan (veritabanları, veri küpleri, dosyalar) gelen verilerin uygun bir veri ambarında birleştirilmesidir.

  • Şema Birleştirme: Farklı kaynaklardan gelen verilerin eşleştirilmesi. Meta veri kullanılabilir.
  • Veri Fazlalığı: Bir varlığın özelliklerinin birden fazla kaynaktan toplanması. Korelasyon analizi ile tespit edilebilir.
  • Veri Değer Karmaşıklığı: Farklı kaynaklardan gelen özellik değerlerinin ölçekleme, birim sistemi veya gösterim farklılıkları nedeniyle heterojen olması.

3. Veri İndirgeme 📉

Büyük veri kümelerinin analiz süresini kısaltmak amacıyla veri hacmini azaltmayı amaçlar. Elde edilen indirgenmiş veri seti, orijinal veriden elde edilen sonuçlardan çok farklı olmamalıdır.

  • Veri Küpü Birleştirme: OLAP sistemlerinde verilerin ön hesaplanması ve özetlenmesi (örn: aylık satışların yıllık temele dönüştürülmesi).
  • Boyut İndirgeme: Analizle ilgisi olmayan veya gereksiz özelliklerin çıkarılması (özellik seçimi). Algoritma verimliliğini artırır, model anlaşılırlığını sağlar.
    • Yöntemler: İleriye doğru seçme, geriye doğru eleme, ikisinin birleşimi, bilgi kazanımı (information gain).
    • Sarmalama (Wrapper) Yaklaşımı: Madencilik algoritmasıyla birlikte özellik seçimi.
    • Süzme (Filter) Yaklaşımı: Algoritmadan bağımsız özellik seçimi.
  • Veri Sıkıştırma: Veri kodlama veya dönüşümlerle indirgenmiş gösterim elde etme.
    • Kayıpsız (Lossless): Orijinal veri, sıkıştırılmış veriden tekrar elde edilebilir.
    • Kayıplı (Lossy): Orijinal verinin gerçeğe yakın bir değeri oluşturulabilir.
  • Büyük Sayıların İndirgenmesi: Verilerde yer alan büyük sayıların daha küçük şekillerle temsil edilmesi.
    • Parametrik Yöntemler: Regresyon, logaritmik doğrusal regresyon (veri parametreleri saklanır).
    • Parametrik Olmayan Yöntemler: Histogramlar (verileri aralıklara bölme), kümeleme (verileri kümelere ayırma), örnekleme (geniş veri kümesinin alt kümesiyle temsil edilmesi).

4. Veri Dönüştürme 🔄

Verilerin veri madenciliği algoritmaları için uygun formlara dönüştürülmesidir.

  • Düzeltme: Bölmeleme, kümeleme ve regresyon gibi tekniklerle verilerdeki gürültünün temizlenmesi.
  • Bir Araya Getirme: Gruplama fonksiyonları kullanarak verileri bir araya getirme (örn: günlük veriyi aylık temele dönüştürme).
  • Genelleme: Düşük düzeydeki verinin kavram hiyerarşisi kullanarak daha yüksek seviyeye dönüştürülmesi (örn: yaş -> genç, orta yaşlı, yaşlı).
  • Normalleştirme veya Standartlaştırma: Sayısal veri değerlerinin küçük bir bölgede yer alması için ölçeklenmesi. Algoritmaların öğrenme hızını artırır.
    • Enk-Enb Normalleştirme (Min-Max): Veriyi belirli bir aralığa (genellikle [0,1]) ölçekler.
      • Formül: X* = (X - X_enk) / (X_enb - X_enk)
      • Örnek: X={251, 148, 166, 244, 472, 356, 379} için X_enk=148, X_enb=472. Dönüştürülmüş değerler [0, 1] aralığında olacaktır.
    • z-Skor Normalleştirme: Veriyi ortalaması 0 ve standart sapması 1 olacak şekilde dönüştürür.
      • Formül: X* = (X - Ortalama) / Standart Sapma
      • Örnek: X={251, 148, 166, 244, 472, 356, 379} için ortalama=288, standart sapma=118.71. Dönüştürülmüş değerler -1.179 ile 1.550 arasında olacaktır.
    • Ondalık Ölçekleme: Değişkenin maksimum mutlak değeri ile bağlantılı olarak ondalık bölümü hareket ettirerek normalleştirme.
      • Formül: X* = X / 10^j (j, X'in maksimum mutlak değerini 1'den küçük yapacak en küçük tam sayı)
      • Örnek: X={251, 148, 166, 244, 472, 356, 379} için j=3 alınırsa, 251 -> 0.251, 472 -> 0.472.
  • Özellik Oluşturma: Madencilik sürecine yardımcı olmak için mevcut özelliklerden yeni özellikler türetme (örn: yükseklik ve genişlikten alan oluşturma).

📏 Benzerlik ve Uzaklık Ölçüleri

Veri madenciliği uygulamalarında nesneler arasındaki benzerlik veya farklılık derecesinin sayısal olarak belirlenmesi esastır.

  • Benzerlik: İki nesnenin birbirine benzeme derecesinin sayısal bir ölçüsüdür. Genellikle [0,1] aralığında ölçeklendirilir (0: hiç benzerlik yok, 1: tam benzerlik).
  • Uzaklık: İki nesnenin birbirinden farklılık derecesinin sayısal bir ölçüsüdür. Genellikle [0,∞) aralığındadır. Yüksek uzaklık, düşük benzerlik anlamına gelir.
  • Yakınlık: Benzerlik ve uzaklık kavramlarının ortak ifadesidir.

1. Dönüşümler 🔄

Benzerlik ve uzaklık ölçüm değerlerinin birbirlerine dönüştürülmesinde veya belirli bir aralığa ([0,1] gibi) ölçeklendirilmesinde kullanılır.

  • [0,1] Aralığına Ölçekleme:
    • Benzerlik için: s' = (s - enk(s)) / (enb(s) - enk(s))
    • Uzaklık için: d' = (d - enk(d)) / (enb(d) - enk(d))
  • Benzerlik-Uzaklık Geçişleri:
    • Sonlu aralıkta ([0,1]): d = 1 - s veya s = 1 - d
    • Sonsuz aralıkta ([0,∞)): s = 1 / (1 + d), s = e^(-d) veya s = 1 - (d - enk(d)) / (enb(d) - enk(d))

2. Basit Nitelikler Arasındaki Yakınlık 🤝

  • Sınıflayıcı Nitelikler:
    • Benzerlik: Aynı ise 1, farklı ise 0.
    • Uzaklık: Aynı ise 0, farklı ise 1.
  • Sıra Gösteren Nitelikler:
    • Değerler tam sayılarla eşleştirilir (örn: kötü=0, zayıf=1...).
    • Uzaklık: d(x,y) = |x - y| / (n - 1) (n: sonuç sayısı).
    • Benzerlik: s(x,y) = 1 - d.
  • Aralıklı/Oransal Nitelikler:
    • Uzaklık: d(x,y) = |x - y|.
    • Benzerlik: Sonsuz aralık dönüşümleri kullanılır.

3. Nicel Değişkenler İçin Yakınlık Ölçüleri 🔢

  • Öklid Uzaklığı: İki nokta arasındaki en kısa doğrusal uzaklık.
    • Formül: d_ij = sqrt(sum((x_ik - x_jk)^2))
    • Özellikler: En yaygın, ölçek farklılıklarından etkilenir, değişkenlerin bağımsız olduğunu varsayar, [0,∞) aralığında değer alır.
  • Karesel Öklid Uzaklığı: Öklid uzaklığının karesidir, karekök alınmaz.
    • Formül: d_ij^2 = sum((x_ik - x_jk)^2)
    • Özellikler: Aykırı değerlere daha fazla ağırlık verir.
  • Karl Pearson Uzaklığı: Standartlaştırılmış Öklid uzaklığıdır, değişkenin varyansına oranlanır.
    • Formül: d_ij = sqrt(sum(((x_ik - x_jk) / s_k)^2)) (s_k: k'ıncı değişkenin standart sapması)
    • Özellikler: Ölçek farklılıklarını ortadan kaldırır, büyük varyansa sahip değişkenlere daha az ağırlık verir.
  • Manhattan (City-Block) Uzaklığı: Birimler arası farkların mutlak değerinin toplamı.
    • Formül: d_ij = sum(|x_ik - x_jk|)
    • Özellikler: L1 normu, aykırı değerlere karşı hassasiyeti düşüktür, değişkenler arasında ilişki olmaması durumunda kullanılır.
  • Minkowski Uzaklığı: Öklid ve Manhattan uzaklıklarını kapsayan genel bir uzaklık ölçüsüdür.
    • Formül: d_ij = (sum(|x_ik - x_jk|^λ))^(1/λ)
    • Özellikler: λ=1 için Manhattan, λ=2 için Öklid uzaklığı elde edilir.
  • Pearson Korelasyon Katsayısı: İki değişken arasındaki doğrusal ilişkinin yönünü ve derecesini ölçer.
    • Formül: r_xy = cov(x,y) / (sd(x) * sd(y))
    • Özellikler: [-1,+1] aralığında değer alır (-1: tam ters ilişki, +1: tam doğru ilişki, 0: ilişki yok).
  • Korelasyon Uzaklığı: Pearson korelasyon katsayısından türetilen bir uzaklık ölçüsüdür.
    • Formül: d_xy = (1 - r_xy) / 2
    • Özellikler: [0,1] aralığında değer alır.
  • Açısal Benzerlik (Cosine Similarity): İki vektör arasındaki açının kosinüsünü kullanarak benzerliği belirler.
    • Formül: s_xy = (x . y) / (||x|| * ||y||)
    • Özellikler: [-1,1] aralığında değer alır, metin madenciliğinde ve kümeleme analizinde sıkça kullanılır, vektörlerin büyüklüğünden ziyade yönüne odaklanır.
  • Mahalanobis Uzaklığı: İki vektör arasındaki uzaklığı, verilerin kovaryans yapılarını da dikkate alarak belirler.
    • Formül: d_xy = sqrt((x - y)^T * S^-1 * (x - y)) (S: kovaryans matrisi)
    • Özellikler: Kümeleme analizi ve aykırı değer tespitinde kullanılır, değişkenler arası ilişkileri hesaba katar.

4. İki Sonuçlu (Binary) Değişkenler İçin Yakınlık Ölçüleri ☯️

Bu değişkenler sadece evet/hayır, var/yok gibi değerler alır. Yakınlık ölçümleri için kontenjans tablosu kullanılır (a: 0-0 eşleşmesi, b: 1-0 eşleşmesi, c: 0-1 eşleşmesi, d: 1-1 eşleşmesi).

  • Basit Eşleştirme Katsayısı: Hem '0-0' hem de '1-1' eşleşmelerini dikkate alır.
    • Formül: s_ij = (a + d) / (a + b + c + d)
    • Uzaklık: d_ij = 1 - s_ij = (b + c) / (a + b + c + d)
  • Binary Öklid Uzaklığı: İki nesnenin eşleşmeyen değişken sayıları üzerinden hesaplanır.
    • Formül: d_ij = sqrt(b + c)
    • Karesel Binary Öklid Uzaklığı: d_ij^2 = b + c
  • Jaccard Benzerlik Katsayısı: Sadece '1-1' eşleşmelerini (değişkenin varlığını) önemser, '0-0' eşleşmelerini göz ardı eder.
    • Formül: s_ij = d / (b + c + d)
    • Uzaklık: d_ij = 1 - s_ij = (b + c) / (b + c + d)

💡 Sonuç

Veri madenciliği süreçlerinde elde edilen sonuçların doğruluğu ve güvenilirliği, verinin kalitesine ve doğru analiz yöntemlerinin seçimine bağlıdır. Temel değişken tiplerinin anlaşılması, verinin doğru bir şekilde temsil edilmesini sağlar. Veri temizleme, birleştirme, indirgeme ve dönüştürme gibi hazırlık aşamaları, ham verideki kusurları gidererek analiz için sağlam bir temel oluşturur. Ayrıca, nesneler arasındaki ilişkileri nicel olarak ifade eden benzerlik ve uzaklık ölçüleri, kümeleme, sınıflandırma ve aykırı değer tespiti gibi ileri düzey veri madenciliği görevleri için vazgeçilmez araçlardır. Bu kavramların bütünsel olarak ele alınması, veri madenciliğinden elde edilecek içgörülerin değerini maksimize eder.

Kendi çalışma materyalini oluştur

PDF, YouTube videosu veya herhangi bir konuyu dakikalar içinde podcast, özet, flash kart ve quiz'e dönüştür. 1.000.000+ kullanıcı tercih ediyor.

Sıradaki Konular

Tümünü keşfet
Veri Madenciliğinde Veri Hazırlama ve Yakınlık Ölçümleri

Veri Madenciliğinde Veri Hazırlama ve Yakınlık Ölçümleri

Bu özet, veri madenciliğinde veri hazırlama süreçlerini, temel değişken tiplerini ve nesneler arası benzerlik ile uzaklık ölçümlerini akademik bir yaklaşımla incelemektedir.

5 dk Özet 25 15
İlişki Kuralları Madenciliği ve Algoritmaları

İlişki Kuralları Madenciliği ve Algoritmaları

Bu özet, ilişki kuralları madenciliğinin temel prensiplerini, değerlendirme ölçütlerini ve Apriori ile FP-Growth algoritmalarını akademik bir yaklaşımla açıklamaktadır.

7 dk Özet 25 15
Veri Madenciliği: Modeller, Süreçler ve Uygulamalar

Veri Madenciliği: Modeller, Süreçler ve Uygulamalar

Bu özet, veri madenciliğinin tanımlayıcı ve tahmine dayalı modelleme türlerini, temel zorluklarını, CRISP-DM ve SEMMA süreç modellerini ve çeşitli sektörlerdeki modern kullanım alanlarını akademik bir yaklaşımla sunmaktadır.

7 dk Özet 25 15
Veri Madenciliği ve R Yazılımı Temelleri

Veri Madenciliği ve R Yazılımı Temelleri

Bu özet, veri madenciliğinin tarihsel gelişimini, etkileşimde olduğu disiplinleri, temel kavramlarını, bilgi keşfi sürecini ve kullanılan modelleri ele almaktadır. Ayrıca, R yazılımının temel komutları ve kullanımı da açıklanmaktadır.

10 dk Özet 25 15
Veri Madenciliği ve R Yazılımı Temel Kavramları

Veri Madenciliği ve R Yazılımı Temel Kavramları

Bu özet, veri madenciliğinin tarihsel gelişimini, etkileyen disiplinleri, temel kavramlarını, bilgi keşfi sürecini ve kullanılan modelleri açıklamaktadır. Ayrıca R yazılımının edinimi, temel komutları ve veri işleme yetenekleri de ele alınmaktadır.

8 dk Özet 25 15
Veri Yolu Monitörü ve Görev Bilgisayarı

Veri Yolu Monitörü ve Görev Bilgisayarı

Bu podcast'te, veri iletişiminin güvenilirliğini sağlayan Veri Yolu Monitörü'nün işlevlerini ve bu kritik bileşenin, Operasyonel Uçuş Programı ile birlikte Görev Bilgisayarı içindeki rolünü detaylıca inceliyorum.

Özet Görsel
Bilgisayar Bilimlerinin Temel Kavramları

Bilgisayar Bilimlerinin Temel Kavramları

Bu içerik algoritmalar, yazılım türleri, dosya ve klasör yönetimi ile işletim sisteminin işlevleri gibi bilgisayar bilimlerinin temel kavramlarını akademik bir yaklaşımla incelemektedir.

6 dk 25 15
Swift Kontrol Akış Yapıları ve Yapay Zeka Destekli iOS Uygulamaları

Swift Kontrol Akış Yapıları ve Yapay Zeka Destekli iOS Uygulamaları

Bu içerik, yapay zeka destekli mobil uygulama geliştirmede Swift'in if/else, switch ve döngü gibi kontrol akış yapılarını detaylıca ele almaktadır. Mantıksal karar alma ve veri işleme süreçleri incelenmiştir.

9 dk Özet 25 15 Görsel