Akademide Veri Analizine Giriş: Kavramlar ve Tanımlar

Veri analizi, akademik araştırmanın yalnızca “matematiksel işlemler” bölümü değildir; soru geliştirme → tasarım → ölçüm → veri toplama → temizleme/kodlama → keşifsel analiz → modelleme → yorumlama → raporlama → paylaşım ve tekrarlama gibi bir bilimsel üretim hattının omurgasıdır. Bu hat üzerinde kullanılan her kavram (ör. değişken, ölçme düzeyi, örneklem, etki büyüklüğü, anlamlılık, güven aralığı, varsayım, model, önyargı, güç) yalnız bir terim değil, karar noktasıdır. Kavramları doğru tanımlamak ve birbirleriyle ilişkilerini kurmak, temiz veriden anlam üretmenin ilk ve en kritik adımıdır.
1) Araştırma Sorusu: İstatistiksel Dile Çeviri
Tanım: Araştırma sorusu, verinin “neyi” yanıtlaması gerektiğini belirler. İstatistiksel dile çeviri, soruyu fark, ilişki, öngörü veya nedensellik türlerinden birine (veya birkaçına) haritalar.
Örnek: “Kelime öğretim programı öğrencilerin puanlarını artırıyor mu?” → Fark (önce–sonra / deney–kontrol); “Hangi değişkenler başarıyı açıklar?” → Öngörü/ilişki; “Program etki yarattı mı, ne kadar?” → Nedensel çıkarım.
Uygulama: Soruyu ölçülebilir hale getirin; birincil ve ikincil sonlanımları yazın; hipotez(ler) ve beklenen etki yönü belirtin.
2) Değişken Kavramları: Bağımlı, Bağımsız, Kovaryat ve Kontrol
Tanım:
-
Bağımlı değişken (Y): Açıklamak/öngörmek istediğiniz sonuç.
-
Bağımsız değişken (X): Y’yi etkilediği, Y ile ilişkili olduğu varsayılan girdiler.
-
Kovaryat/karıştırıcı: Y ve X ile ilişkili; X–Y ilişkisini çarpıtabilecek değişkenler.
Örnek: Y: Kelime puanı; X: Günlük çalışma saati; Kovaryat: Ön test, sosyoekonomik düzey.
İpucu: Karıştırıcıları belirlemek için literatür ve nedensel diyagramlar (DAG) kullanın.
3) Ölçme Düzeyleri: Nominal, Ordinal, Aralık, Oran
Tanım: Ölçme düzeyi, izin verilen matematiksel işlemleri ve kullanılacak istatistikleri belirler.
-
Nominal: Sınıf/etiket (okul türü).
-
Ordinal: Sıra var, aralık eşit değil (Likert 1–5).
-
Aralık: Eşit aralık, mutlak sıfır yok (sıcaklık °C).
-
Oran: Eşit aralık + mutlak sıfır (süre, puan 0–100).
Uygulama: SPSS’te Variable View, R/Python’da uygun veri tipleri ile bunu kodlayın.
Kontrol Listesi: Değişken sözlüğü (codebook) tutuldu mu? Ters maddeler işaretlendi mi?
4) Örneklem ve Popülasyon: Temsiliyet ve Örnekleme Tasarımları
Tanım: Popülasyon, sonuçları genellemek istediğiniz evrendir; örneklem bu evrenden seçtiğiniz alt kümedir.
Örnekleme: Basit rasgele, katmanlı, küme, kolayda, kartopu…
Risk: Olasılıklı olmayan örneklem → genelleme sınırlı.
Uygulama: En azından katmanlı kota hedefleri koyun; gerekiyorsa ağırlık (weight) hesaplayın.
5) Betimsel İstatistikler: Merkez, Yayılım, Şekil
Tanım: Betimsel istatistikler veriyi tanımlar—anlam çıkarmaz ama ipucu verir.
Ölçüler: Ortalama/medyan, sd/IQR, min–max, yüzdelikler; çarpıklık (skew), basıklık (kurt).
Görseller: Histogram, boxplot, violin, QQ-plot.
Örnek Olay: Sağ çarpık puan dağılımında medyan (IQR) ve log-dönüşüm ihtimali.
6) Hipotez Testi Kavramı: H0, H1 ve p-Değeri
Tanım: H0 (null) genelde “fark/ilişki yok”; H1 alternatif iddia. p-değeri, H0 doğru ise gözlenen (veya daha uç) istatistiğin olasılığıdır.
Yanlış Anlama: “p=0,03 → hipotez %97 doğrudur” değildir.
Karar: Önceden belirlenmiş α (genelde 0,05) ile kıyaslanır.
Uyarı: p-değeri tek başına yeterli değildir (bkz. etki büyüklüğü ve GA).
7) Etki Büyüklüğü: “Ne Kadar?” Sorusunun Cevabı
Tanım: Etki büyüklüğü (d, r, OR, RR, η², ω²), farkın/ilişkinin pratik boyutunu verir.
Örnek: d=0,50 orta etki; OR=1,45 → olasılık oranında %45 artış.
Uygulama: Her testin yanına uygun etki ölçüsü ekleyin; yorumda kıyas yapın.
8) Güven Aralığı (GA): Belirsizliği Görünür Kılmak
Tanım: %95 GA, “aynı prosedür tekrarlandığında aralıkların %95’i gerçek parametreyi kapsar.”
İşlev: Etkinin yönü ve büyüklüğü yanında belirsizlik aktarır; yalnız p’den daha bilgilendirici.
Uygulama: “d=0,34; %95 GA [0,08; 0,60]” gibi birlikte raporlayın.
9) Güç (Power) ve Örneklem Büyüklüğü: Tip II Hata ile Mücadele
Tanım: Güç = 1−β; gerçek etkiyi yakalama olasılığı.
Uygulama: Hedef etki büyüklüğü ve α ile gerekli n hesaplanır.
Yorum: “Anlamsız sonuç” etki yokluğu anlamına gelmez; GA genişliği ve güç üzerinden tartışın.
10) Varsayımlar: Normallik, Homojenlik, Bağımsızlık, Çizgisellik
Tanım: Test ve modeller belirli varsayımlar üzerine kuruludur.
Araçlar: Shapiro–Wilk/QQ-plot (normallik), Levene (varyans eşitliği), artık grafikleri/Breusch–Pagan (heteroskedastisite), Durbin–Watson/ACF (otokorelasyon).
İhlal Çözümleri: Dönüşüm (log/√), Welch testleri, robust SE (HC3/HC4), nonparametrik alternatifler.
11) Çoklu Karşılaştırmalar ve Yanlış Keşif
Sorun: Çok sayıda test → şans eseri “anlamlı” sonuçlar.
Çözümler: Bonferroni/Holm (ailewise), Benjamini–Hochberg FDR (yanlış keşif oranı).
Uygulama: Düzeltme yöntemi ve “aile” tanımını rapora yazın.
12) Model Aileleri: Parametrik, GLM, Dayanıklı ve Esnek Yaklaşımlar
Çerçeve:
-
Parametrik klasikler: t-test, ANOVA, OLS.
-
GLM: Lojistik (0/1), Poisson/Negatif Binom (sayım), Beta (oran), Gamma (pozitif, çarpık).
-
Dayanıklı/robust: HC3 hatalar, quantile regresyon, robust regresyon (Huber).
-
Esnek: Polinom/spline, GAM, ağaç tabanlı yöntemler (açıklanabilirlik ihtiyacıyla birlikte).
Karar: Y’nin türüne, dağılıma, hedefe (çıkarım/öngörü) göre seçin.
13) Korelasyon ve Nedensellik: Karıştırıcıların Gölgesi
Tanım: Korelasyon ≠ nedensellik. Nedensel iddialar için tasarım (RCT, DiD, RDD) veya güçlü varsayımlar gerekir.
Uygulama: Kovaryat ayarı, eşleştirme (PSM), IV, nedensel ağaçlar; paralel eğilim ve plasebo testleri gibi varsayım kontrolleri.
14) Görselleştirme: Bilgiyi Şekle Dönüştürme Sanatı
İlke: Her grafik bir iddia taşır; eksenler, birimler, GA şeritleri, dönüşümler şeffaf olmalı.
Sık Hatalar: Eksen kırpma (oran/para), belirsizliği gizleme, yanlış skala.
Öneri: Yönetici raporu için sade; akademik metin için belirsizlik vurgulu görseller.
15) Veri Temizliği ve Kodlama: Analizin Sessiz Kahramanı
Adımlar: Eksiklerin kodlanması (NA/-9 türleri ayrımı), tutarsız değerlerin ayıklanması, ters maddelerin çevrilmesi, çoklu yanıtların one-hot kodlanması.
Araçlar: SPSS (Value Labels, Missing), Excel (Data Validation, Power Query), R/Python (dplyr/pandas).
İpucu: Karar günlüğü (audit trail) tutun; her dönüşümün gerekçesi yazılsın.
16) Açık Bilim ve Yeniden Üretilebilirlik: Veri–Kod–Çıktı Üçlüsü
İlke: Sonuçlar, başkalarının benzer altyapıyla tekrarlayabileceği şekilde sunulmalı.
Paket: /raw
, /clean
, /code
, /output
, /docs
(codebook, karar günlüğü).
Yarar: Güven, akran değerlendirmesinde hız, alıntılanabilirlik.
17) Etik, Gizlilik ve Adalet: Analizin Vicdanı
Konular: Bilgilendirilmiş onam, PII maskeleme, veri saklama politikaları, grup adaleti metrikleri (özellikle tahmine dayalı modellerde).
Uygulama: Kimliği ayrı anahtar dosyada tutma, paylaşıma uygun anonimleştirme, adalet/yanlılık raporları.
18) Keşifsel (EDA) ↔ Doğrulayıcı Analiz Ayrımı
EDA: Şekil, desen, uç değer ve varsayım ipuçları.
Doğrulayıcı: Önceden belirlenmiş hipotez/model; çoklu denemeler disiplin altına alınır.
Uyarı: EDA bulgularını “asıl hipotezmiş” gibi sunmak HARKing riskidir.
19) Duyarlılık (Robustness) Analizleri: Kararlılığı Sınamak
Amaç: Sonuçlar, makul alternatif seçeneklerde (uç dahil/ hariç, farklı dönüşümler, alternatif modeller, farklı kovaryat setleri) benzer kalıyor mu?
Rapor: En az 2–3 senaryo; yön ve büyüklük karşılaştırması.
20) Raporlama Şablonları: Kısa, Tam ve Şeffaf
Olmazsa olmazlar:
-
Ölçüm düzeyi ve dönüşümler,
-
Varsayım testleri,
-
p + etki büyüklüğü + GA,
-
Çoklu karşılaştırma yöntemi,
-
Eksik veri stratejisi,
-
Sınırlılıklar ve pratik önem,
-
Reprodüksiyon materyalleri (syntax/notebook).
21) Yazılım Ekosistemi: SPSS, R, Python
SPSS: GUI hızı, sosyal bilim standardı; Reliability
, Factor
, GLM
, Complex Samples
.
R: Esneklik ve modern paketler (tidyverse
, psych
, lavaan
, survey
, sandwich
, glmnet
).
Python: pandas
, statsmodels
, scikit-learn
, pingouin
.
Strateji: Giriş/temizlik Excel; analiz SPSS/R; görsel R/Python; rapor Quarto/LaTeX.
22) Vaka 1 (Eğitim): Program Etkisi Ölçümü
Soru: Program kelime puanını artırıyor mu?
Tasarım: Deney–kontrol, ön test–son test.
Analiz: ANCOVA (son-test ~ grup + ön-test); etki büyüklüğü (partial η²), GA.
Yorum: Grup etkisi anlamlıysa, büyüklük ve belirsizlik pratik uygulamayla ilişkilendirilir.
23) Vaka 2 (Sağlık): Tedavi Yanıtı (0/1)
Soru: Yeni tedavi yanıt olasılığını artırıyor mu?
Analiz: Lojistik regresyon; OR ve %95 GA, kalibrasyon, ROC-AUC.
Duyarlılık: Uç gözlemler ve farklı kovaryat setleriyle tutarlılık.
24) Vaka 3 (İktisat): Ücret Denklemi ve Log-Dönüşüm
Soru: Eğitim yılı ücret üzerinde nasıl etkili?
Analiz: log(ücret) ~ eğitim + deneyim + cinsiyet; β ≈ yüzdesel değişim.
İpucu: Heteroskedastisite varsa HC3 hata.
25) Sık Kavram Yanılgıları: Mini Düzeltmeler
-
p<0,05 = önemli/yararlı değildir → etki büyüklüğü ve maliyet–faydaya bakın.
-
Anlamsız = etki yok değildir → GA genişliği ve güç konuşun.
-
Likert zorunlu parametrektir yanlıştır → ordinal alternatifleri düşünün.
-
Korelasyon = sebep değildir → tasarım ve nedensel çerçeve kurun.
26) Hızlı Karar Ağacı (Özet)
-
Soru tipi: Fark/ilişki/öngörü/nedensellik?
-
Y’nin türü: Sürekli/ikili/sayım/oran/ordinal?
-
Varsayımlar: Normal & homojen mi?
-
Seçenek: t/ANOVA ↔ Welch ↔ nonparametrik ↔ GLM ↔ robust ↔ (panel/zaman serisi)
-
Rapor: p + etki büyüklüğü + GA; dönüşüm ve varsayım şeffaflığı.
-
Duyarlılık: En az 2 alternatif senaryo.
Sonuç
Veri analizine giriş, kavramların ezberlenmesi değil, kavramlar arası bağların görülmesidir. Araştırma sorusunu istatistik diline çevirirken, değişken–ölçme düzeyi–tasarım üçlüsü seçimleri doğal olarak kısıtlar: Y’niz sürekli ise doğrusal regresyon; ikili ise lojistik; sayım ise Poisson/Negatif Binom; oran ise Beta; ordinal ise sıralı lojistik akla gelir. Fark testlerinde t/ANOVA gücü yüksek seçeneklerdir ama varsayımlar (normallik, homojenlik) ihlal edilirse Welch, nonparametrik (Mann–Whitney/Kruskal–Wallis) veya robust çözümler öne çıkar.
p-değeri tek başına kanıt değildir; mutlaka etki büyüklüğü ve güven aralığı ile birlikte yorumlanmalıdır. “Anlamsız” sonuçlar, çoğu kez yetersiz güç ya da geniş belirsizlik demektir; bu bulgular literatürde değerli bir yer tutar çünkü gelecekteki çalışmalar için yön verir. Çoklu karşılaştırmalar düzeltme gerektirir; aksi halde “yanlış keşif” riski büyür. Varsayım kontrolleri (QQ-plot, Levene, Breusch–Pagan, Durbin–Watson) ve duyarlılık analizleri (uç dahil/ hariç, farklı dönüşümler, alternatif modeller) sonuçların dayanıklılığını görünür kılar.
Analiz yalnız rakamlardan ibaret değildir; görselleştirme, etik–gizlilik–adalet, yeniden üretilebilirlik ve açık bilim ilkeleri bilimsel değerin asli parçalarıdır. Codebook, karar günlüğü, veri–kod–çıktı paketleri; hem sizin gelecekteki kendinize hem de akranlarınıza bir harita sunar. Yazılım seçimi (SPSS/R/Python) bir amaç değil araçtır; önemli olan, yöntemi gerekçelendirmek, varsayımları sınamak, belirsizliği aktarmak ve pratik önemi tartışmaktır.
Son olarak: Veri analizi bir hikâye kurma sanatıdır. Başlangıçta sorunuz var; veri o soruya ışık tutar; istatistiksel dil, ışığı çizgiler ve yüzdeliklerle odaklar; görseller, okuyucuya sahneyi gösterir; sonuç ve tartışma bölümü, “ne oldu?”, “neden oldu?”, “ne anlamı var?” ve “şimdi ne yapmalı?” sorularını yanıtlar. Bu yazıdaki kavramları birbirine bağlayabildiğiniz ölçüde, araştırmalarınız yalnız doğru değil; aynı zamanda ikna edici, tekrarlanabilir ve yararlı olacaktır.
Akademi Delisi, eğitim ve akademik destek alanında kapsamlı hizmetler sunan öncü bir platformdur. Öğrencilerin akademik başarılarına yön verirken, onları bilgiyle buluşturmayı ve potansiyellerini en üst düzeye çıkarmayı amaç edinmiş bir ekibiz. Sitemiz bünyesinde ödevlerden projelere, tezlerden makalelere kadar geniş bir yelpazede destek sağlıyoruz. Alanında uzman yazarlarımız, öğrencilere özgün içerikler sunarken, aynı zamanda onlara araştırma, analiz ve yazım konularında rehberlik ederek kendilerini geliştirmelerine yardımcı oluyor.
Akademik hayatın zorluklarıyla başa çıkmak artık daha kolay. Akademi Delisi olarak, öğrencilere sadece ödevlerinde değil, aynı zamanda araştırma projelerinde, tez çalışmalarında ve diğer akademik gereksinimlerinde de destek sağlıyoruz. Sunduğumuz kaliteli hizmetler sayesinde öğrenciler zamanlarını daha verimli bir şekilde kullanabilirler. Uzman ekibimiz, her bir öğrencinin ihtiyaçlarına özel çözümler üreterek, onların akademik hedeflerine ulaşmalarına katkı sağlar.
Gelişmiş kaynaklara erişimden akademik yazım kurallarına, araştırma yöntemlerinden kaynakça oluşturmaya kadar her aşamada öğrencilere destek sunan Akademi Delisi, eğitimde yeni bir perspektif sunuyor. Amacımız, öğrencilere sadece geçici çözümler değil, aynı zamanda uzun vadeli öğrenme ve başarıya giden yolda rehberlik etmektir.
açık bilim reprodüksiyon ANOVA ve post-hoc araştırma sorusunun istatistik diline çevrimi beta regresyon betimsel istatistik Breusch–Pagan codebook ve karar günlüğü çoklu karşılaştırma düzeltmesi FDR Durbin–Watson Duyarlılık Analizi eğitim sağlık iktisat örnekleri etik gizlilik adalet etki büyüklüğü görselleştirme ve belirsizlik güç analizi güven aralığı histogram boxplot QQ-plot istatistiksel hipotez testi korelasyon ve nedensellik farkı Kruskal-Wallis Levene testi lojistik regresyon OR Mann–Whitney model seçimi ve raporlama nedensel çıkarım DiD RDD PSM nonparametrik testler ölçme düzeyi nominal ordinal aralık oran p-değeri Poisson negatif binom pratik önem quantile regresyon robust standart hatalar HC3 Shapiro–Wilk SPSS R Python varsayım kontrolleri veri analizi kavramları veri temizliği ve kodlama Welch testi