Akademik Projelerde Veri Toplama ve Kodlama Süreci

Akademik bir projenin bilimsel doğruluğu, çoğu zaman analiz aşamasında değil, veri toplama ve kodlama aşamasında kazanılır veya kaybedilir. Alan notlarının nasıl alınacağı, anket maddelerinin nasıl yapılandırılacağı, örneklem planının gerçeğe uygunluğu, laboratuvar veya saha ölçümlerinde ölçüm hatasının nasıl azaltılacağı, etik ve gizlilik protokollerinin nasıl uygulanacağı, verilerin dijitalleştirilirken hangi kod sistemlerinin kullanılacağı… Tüm bu kararlar, sonraki istatistiksel modelleme adımlarının geçerliliğini, güvenilirliğini ve yeniden üretilebilirliğini belirler.
1) Araştırma Mimarisi: Soru → Tasarım → Ölçüm → Kodlama
Veri toplama, “elimizdeki form ve cihazlarla neleri ölçeriz” sorusuna değil, araştırma sorusunun gerektirdiği kanıta göre planlanır.
-
Araştırma sorusu: Nedensel mi (müdahale etkisi), betimsel mi (yaygınlık), ilişkisel mi (korelasyon/assosiyasyon)?
-
Tasarım: Rasgeleleme, kohort/kesitsel, vaka–kontrol, boylamsal/panel, karma yöntem.
-
Ölçüm: Gözlemlenecek değişkenlerin operasyonel tanımı, ölçekte geçerlik/güvenirlik, ölçüm birimi.
-
Kodlama: Her değişkenin tekil bir kimliği, değer aralıkları, eksik değer kodları, türetilmiş göstergeler için formüller.
Kural: Tasarım kusurları, istatistiksel kozmetiklerle telafi edilmez; ölçüm ve kodlama en başta protokolleştirilmelidir.
2) Örnekleme Planı: Evren, Çerçeve, Seçim ve Ağırlık
İyi veri, temsil gücü olan örnekten gelir.
-
Örnekleme çerçevesi: Güncel ve kapsayıcı bir liste (öğrenci kayıtları, kurum listeleri, hane çerçevesi).
-
Yöntem: Basit rastgele, tabakalı, küme, çok aşamalı, oranlı/ orantısız tahsis.
-
Ağırlıklandırma: Tabakalı/çok aşamalı tasarımlarda seçim olasılıklarına göre ağırlık üretin (w=1/π).
-
Yanıt oranı ve önyargı: Non-respons analizi yapın; post-stratification veya raking ile düzeltmeyi düşünün.
Rapor cümlesi kalıbı: “Örnekleme çerçevesi 2024–2025 kayıtlarını kapsar; tabakalı–orantılı tahsisle n=1.200; ağırlıklar seçim olasılığının tersi olarak hesaplanmıştır.”
3) Ölçüm Tasarımı: Geçerlik ve Güvenirlik
-
İçerik geçerliği: Alan uzmanlarıyla madde kapsamı.
-
Yapı geçerliği: Faktör yapısı (EFA/CFA), yakınsak/ayrışan geçerlik.
-
Kriter geçerliği: Dış ölçütlerle korelasyon/uyum.
-
Güvenirlik: Cronbach α/ω, test–tekrar test, gözlemciler arası uyum (κ/α).
Uygulama: Tez ölçeğinde 8 maddelik “özyeterlik” → pilot N=150, EFA (KMO>0,6), α≥0,80 hedef.
4) Anket Yazımı: Bilişsel Test ve Pilot
İyi anket, kısa, açık, tek odaklı ve tarafsızdır.
-
Bilişsel görüşme: Denek maddeleri kendi kelimeleriyle nasıl anlıyor?
-
Yanıt seçenekleri: Dengeli Likert (1–5/7), “Bilmiyorum/ Uygulanamaz” seçeneği, “Diğer (yazınız)”.
-
Sıra etkisi: Benzer maddeleri bloklayın; duyarlılık gerektiren soruları ileride sorun.
-
Pilot test: Zamana, sıraya, teknik aksaklıklara bakın; açık uçlu yanıtlardan sözlük çıkarın (tematik kodlama için).
5) Saha Protokolü ve Veri Toplama Etiği
-
Onam (aydınlatılmış rıza): Amaç, risk/yarar, gizlilik, gönüllülük, çekilme hakkı.
-
Gizlilik: PII sahada tutulmaz; ayrı dosya mantığı (ID–PII eşleme, güvenli depoda).
-
Eğitim: Anketör/araştırmacı eğitimi (tarafsızlık, talimat okuma, kriz durumları).
-
Kalite güvencesi: Gölge görüşmeler, çağrı/ziyaret logları, tekrar aramalar.
6) Ölçüm Cihazları: Kalibrasyon, Çapraz Kontrol ve Zaman Damgası
-
Kalibrasyon: Tartı, sensör, test cihazı; periyodik doğrulama kayıtları.
-
Zaman damgası ve konum: Gün/saat etkisi veya mekânsal kümelenme için veri zenginliği.
-
Çoklu ölçüm: Aynı bireyden birden fazla ölçüm alın (ölçüm hatasının ortalaması).
-
Çapraz kontrol: İki farklı cihaz/uygulayıcı ile küçük bir ikiz ölçüm alt örneği.
7) Dijitalleştirme ve Girdi Doğrulama: “Çöp girerse, çöp çıkar”
-
Çift veri girişi: İki bağımsız giriş + uyuşmazlık çözümü.
-
Veri doğrulama kuralları: Zorunlu alanlar, aralık kontrolleri (0–100), regex (eposta, telefon).
-
Kod listeleri: İl/ilçe kodları, okul türü, meslek sınıfları için standart sözlükler (örn. ISCO).
-
ID üretimi: Rastgele/artan benzersiz kimlikler; anlamsız ID (kişiyi ifşa etmeyen).
8) Kod Kitabı (Codebook) ve Değişken Şeması
Kod kitabı veri setinin anayasasıdır.
-
Alanlar: Değişken adı, etiket, tanım, birim, değer aralığı, eksik değer kodları, imputation bayrakları, türetme formülü, kaynak (anket maddesi no), sürüm tarihi.
-
İsimlendirme:
q01_sosyodem_yas
,q02_egitim_anne
,test_math_z
. -
Eksik değer politikası: Sistem (.) vs kullanıcı tanımlı (97/98/99).
-
Sürüm:
codebook_v1.2.md
— her değişiklikte güncelleyin, depoya (Git/OSF) koyun.
9) Kodlama Kuralları: Kategoriler, Ters Kod ve Çoklu Yanıt
-
Kategorik değişkenler: 1=Evet, 0=Hayır; nominal dizide doğal bir sıralama yoksa sayılar yalnız etiket taşıyıcıdır.
-
Ordinal ölçek: Küçükten büyüğe sıralı (1=Kesinlikle katılmıyorum … 5=Kesinlikle katılıyorum).
-
Ters kod:
yeni = (k+1) - eski
(k en yüksek puan). -
Çoklu yanıt (çok seçenek): Her seçenek için 0/1 sütun veya “list” sütunu + explode (sonradan sütunlara).
-
Açık uçlu alanlar: Sonradan tematik kod sütunları (0/1) + metnin korunması.
10) Veri Kalite Kontrolleri: Tutarlılık ve Mantık Kuralları
-
Aralık dışı değerler: Yaş < 10 veya > 100 ise bayrak.
-
Kesitsel tutarlılık: “Sigara içiyor mu?” = Hayır ise “Günde kaç tane?” boş/0 olmalı.
-
Zaman tutarlılığı: T1–T2–T3 süreleri ve sıralama.
-
Kopya/ikiz kayıt denetimi: Aynı PII/telefon/IP – ama etik olarak kimlik ayrı tutulur; hash ile eşleştirin.
Rapor: Sorunlar “veri temizleme günlüğü”ne (cleaning log) yazılır; kararlar gerekçeli.
11) Eksik Veri Yönetimi: Sebep, Oran, Strateji
-
Sınıflandırma: MCAR (tam rastgele), MAR (gözlenenlere koşullu rastgele), MNAR (rastgele değil).
-
Önleyici strateji: Zorunlu alan, hatırlatma, alternatif mod (telefon/online).
-
Analiz stratejisi: Basit listwise yerine Multiple Imputation (MI) / ağırlıklandırma.
-
Kodlama: Eksik türü için bayrak sütunları (örn.
miss_income=1
); temiz metin raporu.
12) Aykırı (Outlier) ve Uç Değerler: Silmek Değil, Anlamak
-
Tanı: Z-skor > |3|, kutu–bıyık dışı, Mahalanobis, robust yöntemler.
-
Kural: Önce ölçüm/kayıt hatası mı bakın; doğrulama mümkünse düzeltin.
-
Duyarlılık analizi: Uç değerler dahil/ hariç/ winsorize; sonuçların yön ve büyüklük kararlılığı raporlanır.
-
Kayıt: Her müdahale cleaning log’a işlenir.
13) Nitel Veride Kodlama: Tematik, İçerik ve Karma Yaklaşım
-
Kod kitabı (qual): Tema tanımı, dahil/dışla kriterleri, örnek alıntılar.
-
İnter-kodlayıcı uyum: İki kodlayıcı, κ/α raporu; uyuşmazlık çözüm toplantıları.
-
Metin işleme: Anonimleştirme (ad/kurum maskeleme); alıntılarda etik dikkat.
-
Karma: Tematik kodları 0/1 sayısallaştırıp nicel analizlerle ilişkilendirme (ki-kare/lojistik).
14) Dosya Yapısı, Versiyonlama ve Günlük
-
Dizim:
data_raw/
,data_clean/
,scripts/
,outputs/
,docs/
,codebook/
. -
Versiyonlama: Git/OSF/Zenodo; büyük dosyalar için LFS veya bulut.
-
Günlük:
collection_log.csv
(tarih, lokasyon, anketör, mod, sorun),cleaning_log.md
(değişiklik, tarih, kişi, gerekçe). -
Tohumlar: Rastgele işlemlerde
seed
kaydı; yazılım sürümleri (sessionInfo()
).
15) Güvenlik, Gizlilik ve Etik Uyum
-
Ayrık depolama: PII ve analitik veri ayrı; eşleme anahtarı şifreli.
-
Erişim kontrolü: Rol-tabanlı; kim–ne zaman–ne yaptı logları.
-
Anonimleştirme: Küçük hücre bastırma, nadir kombinasyonları birleştirme; konum verisinde genelleştirme.
-
Paylaşım: Metaveri + sentetik veri + kod; gerçek veri için kontrollü erişim.
16) Alan Örneği A — Eğitim: Çok Dalgada Öğrenci Takibi
Senaryo: 3 dönemlik başarı takibi (T1–T2–T3), program etkisi.
Akış: Tabakalı örnekleme (okul türü), ön kayıt; anket + sınav. Uzun formata dönüştürülmüş veri (id, zaman, puan). Ters kodlu maddeler düzeltildi; cleaning log ile tüm düzeltmeler kaydedildi.
Kodlama: program
(0/1), cinsiyet
(1=K,2=E), puan_z
standardize.
Not: Dropout modellemesi için miss_t3=1/0
bayrağı.
17) Alan Örneği B — Sağlık: Klinik Gözlem ve Laboratuvar
Senaryo: Tedavi öncesi/sonrası biyobelirteç (CRP) ve semptom skoru.
Ölçüm: CRP log-dönüşüm planı; cihaz kalibrasyon belgeleri.
Kodlama: CRP_raw, CRP_log; semptom toplam puanı sum(m1…m8)
; adverse_event
0/1.
Kalite: İkiz ölçüm alt örneği (n=50) ile cihaz uyumu; ekstrem değer duyarlılığı.
Gizlilik: PII ayrı, analitik veri ID ile.
18) Alan Örneği C — Sosyal Bilimler: Anket + Açık Uçlu Yanıt
Senaryo: Üniversite öğrencilerinin çevrimiçi öğrenme deneyimi.
Toplama: Online anket; zorunlu ve opsiyonel alanlar.
Açık uçlu analiz: Tematik kodlar (Erişim Sorunu, Motivasyon, Etkileşim), κ=0,79.
Birleştirme: Tematik 0/1 sütunlar nicel analize eklendi; interaksi_onerisi=1
olanların memnuniyet puanı kıyaslandı.
19) Araçlar ve Şablonlar: Excel/SPSS/R/Python Köprüleri
-
Excel: Kodlama tablosu, doğrulama kuralları,
Ctrl+T
ve Power Query ile giriş temizliği. -
SPSS: Değer etiketleri, kullanıcı kayıpları,
RECODE/COMPUTE
,Restructure
ile uzun form. -
R/Python:
tidyverse
/pandas
veri boru hattı;renv/conda
ile ortam kilitleme;quarto/notebook
raporları. -
Şablonlar:
codebook_template.md
,cleaning_log_template.md
,data_dictionary.csv
.
20) Türetilmiş Göstergeler ve Dokümantasyon
-
Türetilmiş değişkenler: Z-skorlar, oranlar, indeksler (örn. sosyoekonomik indeks – PCA).
-
Formül belgesi: Her türetme için kaynak değişkenler, formül, uyarı (ölçek yönü) ve gerekçe.
-
İzlenebilirlik: Bir türetilmiş değişkenin geriye dönük soy ağacı (data lineage).
21) Zamanlama ve Kaynak Yönetimi: Gerçekçi Plan
-
Gantt: Tasarım (2–4 hafta), pilot (2–3 hafta), saha (4–8 hafta), temizlik (2–4 hafta), kodlama–dizayn (1–2 hafta).
-
Riskler: Düşük yanıt, cihaz arızası, etik onay gecikmesi; yedek plan (alternatif mod, ek örnekleme, ek bütçe).
-
Kalite–hız dengesi: Otomasyon ve kontrol listeleriyle hızlı ama güvenli akış.
22) Saha Gerçekleri: Yanıt Yanlılığı ve Davranışsal Çözümler
-
Sosyal onay yanlılığı: Nötr dil, gizlilik vurgusu, anonimlik.
-
Anket yorgunluğu: Kısa anket, ilerleme çubuğu, karışık soru türleri.
-
Outreach: Hatırlatma takvimi, küçük teşvikler, doğru zamanlama (mesai dışı).
23) Kalite Güvence (QA) ve Kalite Kontrol (QC)
-
QA (önleyici): Protokoller, eğitim, pilot, doğrulama kuralları.
-
QC (tespit edici): Günlük denetimler, örneklem raporları, karşılaştırmalı tablolar (beklenen dağılımlar).
-
Raporlama: Haftalık saha raporu (hedef–gerçekleşen), hata ısı haritaları.
24) Yeniden Üretilebilirlik ve Açık Bilim
-
Kayıt: Ön kayıt (pre-analysis plan), analiz planı ve türetme listesi.
-
Paylaşım: Anonimleştirilmiş veri/sentetik veri, kod, codebook; lisans ve atıf.
-
Şeffaflık: Karar günlüğü (neden şu eşiği seçtik?), duyarlılık analizleri.
25) Teslim Öncesi Kontrol Listesi (Data Collection & Coding)
-
Araştırma sorusu–tasarım–ölçüm–kodlama zinciri yazılı mı?
-
Örnekleme çerçevesi güncel, yöntem ve ağırlıklar açık mı?
-
Anket maddeleri pilotlandı, bilişsel test yapıldı mı?
-
Onam/gizlilik ve veri güvenliği protokolleri işler mi?
-
Cihaz kalibrasyonları ve ikiz ölçüm kayıtları var mı?
-
Çift veri girişi ve doğrulama kuralları tanımlı mı?
-
Kod kitabı güncel, eksik–aykırı–türetme politikaları net mi?
-
Cleaning log ve collection log düzenli tutuldu mu?
-
Eksik veri ve outlier stratejileri raporda mı?
-
Açık bilim materyalleri (kod, sözde veri, şablonlar) hazır mı?
Sonuç
Veri toplama ve kodlama, bir akademik projenin yalnızca hazırlık aşaması değil; kanıt mimarisinin temeli ve güvenlik duvarıdır. İyi bir örnekleme planı, sağlam bir ölçüm tasarımı, açık bir kod kitabı ve disiplinli bir temizlik/kodlama akışı olmadan, en sofistike modeller bile güven vermeyen sonuçlar üretir. Bu yazıda, tasarımdan saha protokolüne, anket yazımından pilot testine, dijitalleştirmeden doğrulamaya, kod kitabı ve değişken şemasından eksik–aykırı–türetilmiş değişken yönetimine, gizlilik–etik standartlarından yeniden üretilebilirlik ve açık bilim uygulamalarına kadar uçtan uca bir yol haritası sunduk.
Pratik reçete:
-
Soru–tasarım–ölçüm üçlüsünü yazılı protokole dökün; sonra kodlamayı bu protokolün diliyle yapın.
-
Örneklemeyi ciddiye alın; gerekirse ağırlıklandırma ve non-respons analizleriyle düzeltin.
-
Anketleri bilişsel test ve pilot ile kalibre edin; soru sırası ve dilini tarafsızlaştırın.
-
Kalite güvencesi kurallarını (doğrulama, çift giriş, aralık/mantık kontrolleri) en baştan kodlayın.
-
Kod kitabını yaşayan bir belge olarak yönetin; her türetmenin formülünü ve gerekçesini yazın.
-
Eksik ve aykırı verilerinizi saklamayın; stratejinizi ve duyarlılık sonuçlarınızı raporlayın.
-
Gizlilik ve etik ilkeleri veri yaşam döngüsünün her noktasına yerleştirin.
-
Son olarak, tüm akışı log’layın, sürümleyin ve paylaşılabilir hale getirin.
Böyle bir ekosistem, projenizi yalnız istatistiksel olarak değil, bilimsel olarak da güçlü kılar; danışman, hakem ve okurun güvenini kalıcı biçimde kazanır.
Akademi Delisi, eğitim ve akademik destek alanında kapsamlı hizmetler sunan öncü bir platformdur. Öğrencilerin akademik başarılarına yön verirken, onları bilgiyle buluşturmayı ve potansiyellerini en üst düzeye çıkarmayı amaç edinmiş bir ekibiz. Sitemiz bünyesinde ödevlerden projelere, tezlerden makalelere kadar geniş bir yelpazede destek sağlıyoruz. Alanında uzman yazarlarımız, öğrencilere özgün içerikler sunarken, aynı zamanda onlara araştırma, analiz ve yazım konularında rehberlik ederek kendilerini geliştirmelerine yardımcı oluyor.
Akademik hayatın zorluklarıyla başa çıkmak artık daha kolay. Akademi Delisi olarak, öğrencilere sadece ödevlerinde değil, aynı zamanda araştırma projelerinde, tez çalışmalarında ve diğer akademik gereksinimlerinde de destek sağlıyoruz. Sunduğumuz kaliteli hizmetler sayesinde öğrenciler zamanlarını daha verimli bir şekilde kullanabilirler. Uzman ekibimiz, her bir öğrencinin ihtiyaçlarına özel çözümler üreterek, onların akademik hedeflerine ulaşmalarına katkı sağlar.
Gelişmiş kaynaklara erişimden akademik yazım kurallarına, araştırma yöntemlerinden kaynakça oluşturmaya kadar her aşamada öğrencilere destek sunan Akademi Delisi, eğitimde yeni bir perspektif sunuyor. Amacımız, öğrencilere sadece geçici çözümler değil, aynı zamanda uzun vadeli öğrenme ve başarıya giden yolda rehberlik etmektir.
açık bilim ağırlıklandırma akademik kodlama bilişsel test çift veri girişi cihaz kalibrasyonu cleaning log codebook çoklu yanıt collection log değişken şeması doğrulama kuralları Duyarlılık Analizi eksik veri MI erişim kontrolü etik onam Excel Power Query Gantt planlama Gizlilik güvenirlik cronbach inter-kodlayıcı uyum kategori kodlama konum verisi genelleştirme küçük hücre bastırma küme örnekleme non-respons analizi ölçüm geçerliği örnekleme planı outlier yönetimi PCA indeks PII anonimleştirme pilot anket Python pandas QA QC R tidyverse saha protokolü SPSS Recode Compute sürüm kontrolü tabakalı örnekleme tematik kodlama ters kod türetilmiş değişken uzun format veri güvenliği veri kalite kontrolleri veri sözlüğü veri toplama winsorize yeniden üretilebilirlik zaman damgası