Bu çalışma materyali, İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi İstatistik ders kitabından (Prof. Dr. Sema Ulutürk Akman, Doç. Dr. Hakan Bektaş) ve ilgili dersin sesli transkriptinden derlenmiştir.
İstatistik: Temel Kavramlar, Veri Düzenleme ve Ortalamalar 📊
Bu çalışma materyali, istatistiğin temel prensiplerini, veri toplama ve düzenleme yöntemlerini, serileri, grafiklerle sunumu ve merkezi eğilim ölçülerini kapsamaktadır. İstatistik, sonuçlara varmak ve karar vermek amacıyla verileri toplama ve analiz etme bilimidir.
1. İstatistiğin Tanımı ve Temel İşlevleri 📚
İstatistik kelimesi, Modern Latincedeki "statisticum collegium" (devlet konseyi) ve İtalyancadaki "statista" (devlet adamı) kelimelerinden türemiştir. Tarihsel olarak devletlerin nüfus ve özellikleri hakkında bilgi toplama ihtiyacından doğmuştur. Günümüzde istatistik, iki temel işlevi yerine getiren bir bilim dalıdır:
- Tarifsel (Betimsel) İstatistik: Verileri toplama, düzenleme, özetleme ve grafiklerle sunma süreçlerini içerir. Amacı, eldeki verinin özelliklerini tanımlamaktır.
- Örnek: Bir insan kaynakları yöneticisinin personel adaylarının test sonuçlarını sıralaması, ortalama puanı hesaplaması ve tablolarla sunması.
- Tümevarım (Çıkarsama) İstatistiği: Örneklemden elde edilen bilgilerle daha büyük bir anakütle hakkında çıkarımlar yapmayı ve tahminlerde bulunmayı amaçlar.
- Örnek: Bir genel seçim öncesinde, milyonlarca seçmen arasından seçilen az sayıda seçmenle yapılan anketlerle ülke genelindeki oy oranlarının tahmin edilmesi.
İstatistik; ekonomi (ekonometri), psikoloji (psikometri), sosyoloji (sosyometri), sağlık (biyoistatistik) ve eğitim bilimleri gibi birçok alanda yaygın olarak kullanılmaktadır.
2. İstatistiğin Konusu ve Metodolojisi ✅
İstatistiğin konusunu kollektif olaylar oluşturur. Kollektif olaylar, aynı koşullar altında bile farklı sonuçlar gösterebilen hadiselerdir (örn: iki bitkinin gelişimi, ikiz kardeşlerin test sonuçları). Tipik olaylar ise aynı koşullar altında her zaman aynı sonucu veren olaylardır (örn: bir kalemin yere düşme süresi).
İstatistik metodolojisi başlıca dört temel aşamadan oluşur:
- Veri Toplama: Gözlem yapma veya veri toplama.
- Veri Düzenleme: Toplanan ham verileri analiz için uygun hale getirme.
- Veri Sunumu: Düzenlenmiş verileri tablo ve grafiklerle gösterme.
- Veri Analizi ve Değerlendirme: Uygun istatistik tekniklerle analiz yapma ve sonuç çıkarma.
3. Veri Toplama ve Kaynakları 📥
Veri toplama aşamasına rölöve veya derleme denir. Araştırmacılar başlıca iki tür veri toplama yöntemini kullanır:
- Birincil Veri: Araştırmacının bizzat kendisinin topladığı verilerdir.
- Yöntemler: Deney tasarımı, anket/soru formu, gözlem.
- Örnek: Bir üniversitedeki öğrencilerin yemekhane memnuniyetini belirlemek için anket yapmak.
- İkincil Veri: Bir kurum veya kuruluş tarafından daha önce toplanmış ve düzenlenmiş verilerin kullanılmasıdır.
- Örnek: TÜİK tarafından toplanan nüfus, enflasyon, milli gelir verilerini kullanmak.
⚠️ Rölöve Hataları: Veri toplama aşamasında ortaya çıkan hatalardır.
- Tesadüfi Hatalar: Farklı ve zıt yönlerde ortaya çıkar, genellikle birbirini nötralize eder ve çalışmanın bütününe etkisi düşüktür (örn: sayım görevlisinin bir kadını erkek olarak kodlaması).
- Sistematik Hatalar: Hep aynı yönde gerçekleşir ve sonuçları doğrudan etkiler, birim sayısı artırılarak azaltılamaz (örn: vergi korkusuyla gelirin düşük beyan edilmesi).
4. Temel İstatistiksel Kavramlar 💡
- Anakütle: İncelemeye konu olan tüm birimlerin oluşturduğu topluluktur.
- Örnek: Türkiye'deki tüm seçmenler.
- Örnek Kütle (Örneklem): Anakütleyi temsil edecek nitelik ve yeterlilikte seçilen az sayıda birimden oluşan alt kümedir. Zaman, maliyet veya imkansızlık durumlarında kullanılır.
- Örnek: Seçim anketlerinde 50 milyon seçmenden 3000 kişilik bir grubun seçilmesi.
- Parametre: Anakütleyi karakterize eden değerlerdir (örn: 50 milyon seçmenin oy oranı). Tek ve kesin bir değerdir.
- İstatistik (Statistik): Örnek kütleyi veya örneklemi karakterize eden değerlerdir (örn: 3000 kişilik örneklemin oy oranı). Seçilen örneğe göre farklılık gösterebilir.
5. Birim, Vasıf, Şık ve Ölçüm Düzeyleri 🏷️
- Birim: İstatistiksel bir çalışmada inceleme veya gözleme konu olan kollektif olaylardan her biridir.
- Çeşitleri: Maddi (insan, bina), Maddi Olmayan (doğum, boşanma), Devamlı (insan, motorlu taşıt), Ani (trafik kazası, boşanma).
- Özelliği: Sayılabilir veya ölçülebilir olmalı, homojen ve belirli bir tanıma uygun olmalıdır.
- Vasıf (Değişken): Birimlerin sahip oldukları özelliklerdir (örn: cinsiyet, yaş, medeni durum).
- Vasıf Türleri:
- Şık Sayısına Göre: Az şıklı (cinsiyet), Çok şıklı (meslek, yaş).
- Niteliklerine Göre: Nicel (yaş, boy), Nitel (cinsiyet, medeni durum).
- Değer Alımına Göre: Sürekli (boy, ağırlık), Süreksiz/Kesikli (çocuk sayısı, kat sayısı).
- Sıralanabilirliğine Göre: Sıralı (yaş, eğitim), Sırasız (meslek, göz rengi).
- Diğer: Zaman vasfı (doğum yılı), Mekân vasfı (doğum yeri).
- Vasıf Türleri:
- Şık: Vasıfların bireylerdeki görünüm şekilleridir (örn: cinsiyet vasfının şıkları "kadın" ve "erkek").
5.1. Verinin Ölçüm Düzeyleri 📏
Verinin ölçüm düzeyi, verinin düzenlenmesi ve uygun istatistiksel yöntemlerin seçilmesi açısından önemlidir. Dört temel ölçüm düzeyi vardır:
- Sınıflama (Nominal) Ölçüm Düzeyi: Birimleri belirli bir özellik açısından kategorilere ayırır. Şıklar nitel (isimsel) olup, aralarında sıra veya büyüklük ilişkisi yoktur. Sadece ayırt edicilik sağlar.
- Örnek: Cinsiyet (kadın/erkek), medeni hâl (bekâr/evli), kan grubu (A, B, AB, 0).
- Sıralama (Ordinal) Ölçüm Düzeyi: Sınıflama düzeyine ek olarak, kategoriler arasında bir önem, büyüklük-küçüklük veya sıra ilişkisi bulunur. Ancak şıklar arasındaki farklar eşit değildir, bu nedenle fark ölçülemez.
- Örnek: Başarı durumu (kötü, orta, iyi, pekiyi), eğitim durumu (ilkokul, ortaokul, lise, lisans), gelir durumu (düşük, orta, yüksek).
- Aralık (Interval) Ölçüm Düzeyi: Sıralama düzeyine ek olarak, kategoriler arasındaki mesafeler (farklar) eşittir. Matematiksel işlemler yapılabilir. Ancak sıfır noktası keyfi olup, mutlak yokluğu göstermez.
- Örnek: Sıcaklık (Santigrat veya Fahrenhayt). Adana 20°C, Kars 5°C ise fark 15°C'dir, ancak Adana Kars'tan 4 kat sıcak denemez.
- Oran (Ratio) Ölçüm Düzeyi: Aralık düzeyine ek olarak, mutlak yokluğu gösteren bir sıfır noktasına sahiptir. Tüm matematiksel ve istatistiksel işlemlere elverişlidir.
- Örnek: Boy uzunluğu, ağırlık, yaş, gelir. Ali 100 kg, Ayşe 50 kg ise Ali Ayşe'den 50 kg daha ağır ve 2 kat daha ağırdır. "Çocuk sayısı 0" mutlak yokluğu ifade eder.
Nitel vasıflar sınıflama ve sıralama düzeyleri ile, nicel vasıflar ise aralık ve oran düzeyleri ile ölçülür.
6. Verilerin Düzenlenmesi 🗂️
Ham verilerin anlamlı hale gelmesi için düzenlenmesi gerekir.
- Tasnif: Verileri incelenen vasfın şıklarına göre ayırarak, aynı şıkka sahip birimleri kümelere ayırma işlemidir. Her şıkta kaç birimin yer aldığını gösteren değere frekans denir.
- Örnek: 100 öğrencinin sınav notlarını her bir notun kaç kez alındığını gösteren bir tablo ile düzenlemek.
- Gruplama: Şık sayısının çok fazla olduğu durumlarda, birbirine yakın şıkları homojen gruplarda toplama işlemidir. Gruplama, veriyi daha anlaşılır hale getirir ancak kısmen bilgi kaybına yol açabilir.
- Kavramlar:
- Sınıf Alt Sınırı: Bir grupta bulunabilecek en küçük değer.
- Sınıf Üst Sınırı: Bir grupta bulunabilecek en büyük değer.
- Sınıf Aralığı (Sınıf Genişliği): Üst ve alt sınır değerleri arasındaki fark.
- Sınıf Orta Noktası: (Üst sınır + Alt sınır) / 2 formülüyle hesaplanır ve sınıfı temsil eden değerdir.
- Sturge Kuralı: Sınıf genişliğinin belirlenmesinde yol gösterici bir formüldür:
S = (Xmaks - Xmin) / (1 + 3,322 log n)BuradaXmaksen büyük,Xminen küçük gözlem değeri,nise gözlem sayısıdır.
- Kavramlar:
7. Seriler ve Grafiklerle Sunum 📈
Toplanan verilerin belirli bir esasa göre düzenlenmesiyle seriler oluşturulur.
7.1. Seri Türleri:
- Zaman Serileri: Verilerin zaman vasfının şıklarına göre düzenlenmesidir (örn: yıllara göre enflasyon, aylık satışlar).
- Mekân Serileri: Verilerin mekân vasfının şıklarına göre düzenlenmesidir (örn: ülkelere göre nüfus, illere göre milli gelir). Zaman sabittir.
- Panel Veriler: Hem zaman hem de mekân serisi özelliğini aynı anda taşıyan serilerdir (örn: 2010-2016 yılları arasında illere göre milli gelir).
- Bileşik Seriler: Tek bir değişken için değil, iki veya daha çok veri için düzenlenen dağılımlardır (örn: tüketici ve üretici fiyat indeksleri).
- Bölünme (Frekans) Serileri: Zaman ve mekân vasıflarından bağımsız, bir vasfın şıklarının frekanslarına göre düzenlenmesidir.
- Basit Seri: Nicel verilerin küçükten büyüğe (veya büyükten küçüğe) sıralanmasıyla elde edilir.
- Tasnif Edilmiş Seri: Aynı gözlem değerlerinin bir araya toplanıp frekanslarının belirtilmesiyle oluşturulur.
- Sınıflanmış Frekans Serisi: Çok sayıda gözlem değerine sahip verilerin, birbirine yakın değerlerinin homojen sınıflarda toplanmasıyla oluşturulur.
7.2. Verilerin Grafik Yardımıyla Sunulması 🖼️
Verilerin görsel olarak sunulması, anlaşılırlığı artırır.
- Nitel Veriler İçin Grafikler:
- Çubuk Grafik: Nitel vasfın şıklarına ilişkin frekans veya yüzde frekans değerlerini ayrı ayrı çubuklarla gösterir.
- Daire Dilimleri Grafiği: Nitel vasfa ilişkin şıkları bir dairenin dilimleri şeklinde sunar, her dilim toplam içindeki payı gösterir.
- Bindirmeli Grafik: Şıklara ait frekansların veya yüzdesel frekansların üst üste gelecek şekilde gösterildiği grafiktir.
- Nicel Veriler İçin Grafikler:
- Kartezyen Grafik: Tasnif edilmiş serileri özetlemek için kullanılır.
- Histogram: Sınıflanmış serilerin grafik gösterimidir. Sütunların alanı frekansları gösterir.
- Dağılım Poligonu: Histogram çizildikten sonra sütunların üstlerindeki sınıf orta noktaları birleştirilerek çizilir.
- Çizgi Grafiği: İncelenen vasfın zaman içindeki değişimini göstermek için kullanılır.
- Serpilme Diyagramı: İki nicel değişken arasındaki ilişkiyi göstermek için kullanılır.
8. Merkezi Eğilim Ölçüleri: Analitik Ortalamalar ➕
Ortalamalar, bir veri setindeki verilerin hangi değer etrafında toplandığını gösteren merkezi eğilim ölçüleridir. Aşırı değerlerin etkisini yumuşatarak serinin genel eğilimini ortaya koyar.
- Ortalamaların İşlevleri:
- Bir serinin kolayca hatırlanabilir olmasını sağlama.
- Birden çok seriyi ortalamaları üzerinden karşılaştırabilme.
- Serinin normal değerini bulma ve genel bir fikir edinme.
Ortalamalar, serideki en küçük değer (Xmin) ile en büyük değer (Xmaks) arasında bir değer alır (Xmin < Ortalama < Xmaks).
8.1. Analitik Ortalamalar 🔢
Bir veri kümesindeki tüm birimlerin ortalama hesabına katıldığı ve çözüme dayalı olarak hesaplanan ortalamalardır. Bu nedenle duyarlı ortalamalar olarak da adlandırılırlar.
- Aritmetik Ortalama: Uygulamada en sık kullanılan ortalamadır. Veri setinin genel seviyesini temsil eder.
- Geometrik Ortalama: Özellikle oranlar veya büyüme hızları gibi çarpan ilişkili veriler için kullanılır.
- Kareli Ortalama: Özellikle değişkenliğin önemli olduğu durumlarda veya fiziksel ölçümlerde kullanılır.









