Resim URL: https://www.ssc.wisc.edu/sscc/pubs/spss/classintro/screenshots/spss_students1/SPSS02DataEditor.jpg

 

Biyoistatistik denildiğinde araştırmacılar için ilk akla gelen eminim veri analizi ve kullanılan o meşhur paket programlar oluyor. Ufak bir arama yaparak kendi şehrinizde uygulamalı biyoistatistik kurslarına denk gelebilirsiniz.

Öyle ki, bunun akademik camiadaki “piyasasını” keşfetmiş olan ilaç firmaları, hedef kitlesindeki klinisyenlerin bu kurslara gitmelerine olanak sağlamakta, sağlık profesyonelleri de günübirlik ya da iki-üç günlük düzenlenen bu kurslara iştirak etmektedir. Sağlıkla ilgili çoğu kongrede artık istatistik konusundaki en az bir kurs veya atölye görür hale geldik.

Akademinin kanayan yarası veri analizi gibi gözükse de aslında gerçek hiç de öyle sanıldığı gibi değil.

Tıpkı büyük emeklerle çocuğunu büyüten bir ebeveynin bir an önce çocuğunun mürüvvetini görmek istemesi gibi, araştırmacılar da topladıkları veriden bir an önce anlamlı sonuçlar çıkmasını bekler. Anlamlıdan kastım hani o meşhur “p değeri”. Peki bu “p değeri odaklı” çalışmalar yürüten araştırmacıların ortak özelliği nedir? Bu araştırmacılar doğal olarak veri toplama aşaması biter bitmez analize geçmek ister. Çünkü p değeri anlamlı bulunursa o yayın daha kıymet görür. Çünkü p değeri anlamlı çıkarsa yayın, etki faktörü daha yüksek bir dergiye gönderilecektir. P değeri anlamlılığı yayının daha kolay kabulünü sağlayabilir (ki bazı dergiler bu mantıkla çalışıyor). Daha fazla yayını kabul edilen araştırmacı da bir an önce doçent olabilir. Mevcut sistemde Türk akademisinin en büyük kamçısı doçentlik ve yayın teşvikleridir desek yanlış olmaz. “Az yayınım olsun ama kaliteli olsun” diye düşünen akademisyenlerin idealist olarak görüldüğü ve maalesef ki neslinin tükenmekte olduğu bir çağda yaşıyoruz. Bu konu bambaşka bir yazı konusu fakat benim geleceğim asıl nokta, p değerine odaklanmanın, önemli bir meseleyi kaçırmamıza neden olduğu…

Tabii ki doğru istatistik yöntemlerini kullanmak çok mühim fakat doğru analiz ancak doğru veriyle mümkündür.

Araştırmacıların gözünde veri analizi, veri kontrolüne kıyasla daha uzun soluklu bir süreç olarak gözükse de aslında analiz aşamasının kısa sürede tamamlanmasını sağlayan yegâne etmen doğru veri yönetimidir.

Bir cerrah için hastanın operasyonunda doğru tekniklerin kullanılması ne kadar önemliyse, ameliyatın steril ve hijyenik koşullarda sürdürülmesi de o kadar önemlidir. Benzer şekilde bir araştırmada da veri hijyeninden bahsedilebilir.

Hijyen sorunları sağlık açısından komplikasyona neden olurken, veri hijyenine özen göstermemek de analizde komplikasyona yani hatalı sonuçlara neden olabilir.

Ancak verinin kontrol edilerek hijyenik koşullarda analiz edilmesi çoğu zaman es geçilmektedir.

Yani aslında akademinin kanayan asıl yarası: KONTROLSÜZ VERİ GİRİŞİDİR.

Çünkü istediğiniz kadar doğru yöntemi uygulayın, veriniz doğru değilse analizin doğru olmasını bekleyemezsiniz. Belki de referans aldığınız o yüksek atıflı makale, verisini kontrol etmeyen veya gözle birkaç defa kontrol ederek analiz yapan bir araştırmacı tarafından yazılmıştır. Verinin gözle kontrolünün bile aslında yetersiz olduğunu vurgulayan bir araştırmadan bahsetmek istiyorum. Veri giriş yöntemlerinin veri doğruluğu ve istatistiksel sonuçlara etkisinin değerlendirildiği bu çalışmada üç çeşit veri yöntemi karşılaştırılmış*. Birincisi “double enrty” denilen iki kez veri girişi yapılarak uyumsuzlukların ve aralık dışı verilerin tespit edildiği yöntem. İkincisi, her formun tek tek gözle kontrol edildiği yöntem. Ve son olarak tek seferde yavaş ve en doğru şekilde veri girişi yapılan yöntem. Toplam 42 soruluk 30 anketle 1260 veri girişi yapılmış. Çift veri girişinde ortalama hata sayısı 0,34, görsel kontrolde 10,39, tek girişte ise 12,03 olarak bulunmuş.

 

İstatistiksel yöntemlerin kullanımında elde edilen test istatistiklerinin doğruluğu kıyaslandığında ise durum oldukça dramatik. 1. yöntemde doğruluk oranı ortalama %88, 2. yöntemde %34 ve 3. yöntemde %33.

Bu durumda veriyi doğru şekilde girmemek, anlamlı çıkmaması gereken sonucun anlamlı bulunması, anlamlı olan sonucun ise anlamlı çıkmaması demek olabilir.

Araştırmaya çoğumuzun uyguladığı hızlı hızlı tek seferde giriş yöntemi dahil edilse, sonucun vahametini siz düşünün. Veri girişi hatalarının p değerlerine etkisini düşündükçe kendimi bilim dünyasını sorgularken buluyorum.

Aynı çalışmada veri girişi hataları aralık içi (in-range) ve aralık dışı (out-of-range) olarak incelenmiş, büyük bir çoğunluğunun (%89) aralık içi hatalar olduğu bulunmuş. Aralık dışında kalan hatalı veriler (ör: 1-5 arasında olması gereken verinin 7 olarak girilmesi)  histogram, kutu (box-plot) grafiği veya frekans tablolarıyla kolaylıkla tespit edilirken, aralık içi hataların (ör: 1-5 aralığındaki verinin 1 yerine 4 girilmesi) tespiti oldukça zordur. Yani aslında hataların büyük çoğunluğu tespit edilemiyor!

Verinizi emanet ettiğiniz bir istatistikçi ancak aralık dışı hataları tespit edebilir. Verinin ve dolaylı olarak analizin doğruluğundan asıl sorumlu olan kişi, veri formunu veri setine aktaran araştırmacıdır. Verinizi iki kere girip kontrol etmek, veri giriş süresini uzatsa da güvenilirlik açısından paha biçilemez.

Yani sonuç olarak kusursuza yakın bir çalışmanız olsun istiyorsanız size önerim öncelikle verinize sahip çıkmanız olacaktır.

Kaynak: * Barchard, K. A., & Pace, L. A. (2011). Preventing human error: The impact of data entry methods on data accuracy and statistical results. Computers in Human Behavior27(5), 1834-1839

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

This site uses Akismet to reduce spam. Learn how your comment data is processed.