temel oran safsatası

Temel oran ihmali, temel oran yanılgısı, temel oran yanlılığı olarak da adlandırılabilen temel oran safsatası, biçimsel bir mantık safsatasıdır. Konuyla ilgili temel oran bilgisi, daha spesifik başka bilgilerle birlikte verildiğinde insan aklı, temel oran bilgisini ihmal edip sadece spesifik bilgilere odaklanarak çıkarım yapma eğilimindedir. Temel oran ihmali, daha genel olan genişleme ihmalinin özel bir biçimidir.

{tocify} $title={İçindekiler}

Örnekler

Örnek 1: Hasta mıyım?

Bir sağlık sorunu nedeniyle doktora gidiyorsunuz ve size bir test yapılıyor. Test, tüm hastaları hatasız bir şekilde "hasta" olarak gösterebiliyor fakat sağlıklı insanların %1'inde de hatalı olarak "hasta" sonucu veriyor. Hastalığın ise nüfustaki oranı 1/10000 (on binde bir). Testiniz pozitif çıkıyor.

Temel oranı, yani nüfustan rastgele seçilmiş bir kişinin hasta olma ya da olmama oranını hesaba katmayıp sadece testin doğruluk oranını düşünen kişiler (buna doktorlar da dahil olabilir) sizi %99 ihtimalle hasta kabul edip gerekli tedavi sürecini başlatabilirler. Siz de kendinizi %100'e yakın bir ihtimalle hasta kabul edip boşuna üzülebilirsiniz. Temel oranın etkisi hesaba katıldığında ise çok farklı bir gerçekle karşılaşılır. Test, nüfusun büyük çoğunluğunu oluşturan sağlıklı kişileri de %1 oranda hasta gösteriyor. %1 küçük bir oran gibi görünse de test uygulanan nüfusun çok büyük kısmı hasta olmadığı için yine de çok sayıda insan yanlışlıkla "hasta" çıkıyor ve bu sayı gerçekten hasta olup da "hasta" çıkanlardan çok daha fazla sayıda insanı kapsıyor. Dolayısıyla test sonucu pozitif çıkan bir kişinin gerçekten hasta olma ihtimali de, bu örnekte, %1'den küçük oluyor. Bir milyon kişilik bir nüfusta durum örneklenecek olursa:

Örnek 2: Sarhoş sürücüler

Polislerin alkolmetresi ayık sürücülerin %5'ini yanlışlıkla sarhoş gösteriyor. Sarhoş sürücüleri ise hatasız olarak sarhoş gösteriyor. Her bin sürücüden biri sarhoş. Polislerin rastgele bir sürücüyü durdurup test ettiğini ve testin "sarhoş" çıktığını farz edin. Sürücüyle ilgili başka hiçbir bilgiye sahip olunmadığı varsayıldığında sürücünün gerçekten sarhoş olma olasılığı nedir?

Birçok kişi bu soruya %95 cevabını veriyor ama doğru cevap yaklaşık %2'dir. Açıklama şu şekildedir:

Ortalamada test edilen her 1000 sürücü için

1 sürücü sarhoştur ve bu sürücü için test sonucu %100 gerçek pozitiftir yani doğru olarak "sarhoş" sonucu çıkmıştır.

999 sürücü ayıktır fakat bunların %5'i için yanlış pozitif sonuç çıkmış, yani hatalı olarak "sarhoş" gösterilmişlerdir. Bu hesaplandığında 49.95 sayısı elde edilir.

Bu nedenle, test sonucu pozitif çıkan tüm sürücüler (1 + 49.95 = 50.95) arasındaki gerçekten sarhoş olan sürücülerin (1 kişi) oranı 1/50.95 ≈ 0.02'dir.

Yalnız dikkat edilmelidir ki bu hesaplama en başta, polislerin sürücüleri tamamen rastgele durdurduğunu varsaymaktadır; arabayı kötü kullandıkları için değil. Bu rastgeleliği bozacak bu ya da başka herhangi bir koşulun varlığı, hesaplamaya iyi araba kullanan sarhoş sürücülerin olasılığını ve kötü araba kullanan ayık sürücülerin olasılığını da katmayı gerektirecektir.

0.02'lik bu olasılık daha yöntemsel biçimde Bayes Teoremi'yle de hesaplanabilir. Amaç, alkolmetre'nin pozitif sonuç verdiği durumda sürücünün sarhoş olma olasılığını bulmaktır. Bu şöyle ifade edilebilir:

p(sarhos|Z)

Burada "Z", alkolmetrenin pozitif sonuç göstermesi koşulunu ifade eder. Tüm ifade ise alkolmetrenin pozitif sonuç gösterdiği bir durumda sürücünün sarhoş olma ihtimalidir. Bayes teoremine göre:

p(sarhos|Z) = [p(Z sarhos) \ p(sarhos)] p(Z)

Aşağıdaki bilgiler ilk paragrafta verilmişti:

p(sarhos) = 0.001

p(ayik) = 0.999

p(Z|sarhos) =1.00

p(Z|ayik) =0.05

Görülebileceği gibi Bayes' teoremine göre testin pozitif çıkma olasılığını ifade eden p(Z) değerine ihtiyaç var. Bu oran, testi pozitif çıkan sarhoşların olasılığı (tüm nüfusa göre) ile testi pozitif çıkan ayıkların olasılığı (tüm nüfusa göre) toplanarak bulunabilir:

p(Z) = p(Z|sarhos) p(sarhos) + p(Z|ayik) p(ayik)

buna göre

p(Z) = (1.00 x 0.001) + (0.05 x 0.999) = 0.05095

Bu oranlar Bayes' teoremine konulduğunda şu sonuç bulunur:

p(sarhos|Z) = (1.00 x 0.001) / 0.05095 = 0.019627

Örnek 3: Teröristlerin tespiti

1 milyon nüfuslu bir şehirde 100 kişinin terörist, 999900 kişinin ise terörist olmadığını farz edelim. Buna göre rastgele seçilmiş bir kişinin terörist olma temel oran olasılığı 0.0001 (10 binde 1) ve terörist olmama temel oran olasılığı 0.9999'dur (10 binde 9999). Teröristleri belirleyip yakalamak için güvenlik güçleri, şehrin çeşitli yerlerine yüz tanıma yazılımına bağlı alarm veren kameralar yerleştirsin.

Yazılımın iki hata payı da %1:

Yanlış negatif oranı: Taradığı her 100 teröristten 1'inin yüzünü "terörist değil" olarak tanımlıyor ve alarm vermiyor.
Yanlış pozitif oranı: Taradığı her 100 terörist olmayan kişi arasından yanlışlıkla bir kişiyi "terörist" olarak tanımlayıp alarm veriyor.

Şehirde herhangi bir kişinin alarmı tetiklediğini düşünürsek bu kişinin terörist olma olasılığı nedir? Başka bir ifadeyle, P (T|A) nedir, yani alarm tetiklenmişse bunun terörist olma olasılığı nedir? Temel oran yanılgısına kapılanlar kişinin terörist olma ihtimalini %99 olarak verecektir. Bu çıkarım ilk bakışta anlamlı gibi görünse de aslında hatalı bir akıl yürütme gerçekleşmiştir ve aşağıda görüleceği gibi bu oran %99 değil %1'e yakındır.

Yanılgı, iki farklı hata oranının karıştırılmasından kaynaklanır. "Yüzü taranan her 100 terörist için tetiklenmemiş alarm sayısı" ve "tetiklenmiş her 100 alarm için gerçek terörist sayısı" ilgisiz niceliklerdir. Birinin diğerine illa eşit olması gerekmediği gibi yakın olmaları da gerekmez. Bunu daha net görebilmek için aynı alarm sisteminin geçerli olduğu ama hiç teröristi olmayan ikinci bir şehir farz edelim. Sistem burada ilk şehirdeki gibi terörist olmayan her 100 kişiden biri için yanlışlıkla tetiklenecektir ama şehirde hiç terörist olmadığından gerçek bir terörist için hiçbir zaman tetiklenmeyecektir. Dolayısıyla, alarmın tetiklenişlerinin %100'ünde alarm yanlıştır ama "yanlış negatif" oranı hesaplanamayacaktır bile. Bu şehirde, "her 100 alarm için terörist olmayan sayısı" 100'dür ama yine de P(T|A)=%0'dır. Alarm çaldığı zaman bir teröristin tespit edilme ihtimali %0'dır.

İlk şehrin tüm nüfusunun kameranın önünden geçtiğini düşünelim. 100 teröristten 99'u alarmı tetikleyecektir. Ayrıca terörist olmayan 999900 kişiden de 9999'u alarmı yanlışlıkla tetikleyecektir (çünkü yanlış pozitif oranı: %1). Bu durumda toplamda 10098 kez (99+9999) alarm tetiklenmiş olacak ve bunların sadece 99'u gerçekten terörist olacaktır. Dolayısıyla alarm tetiklendiğinde kişinin gerçekten terörist olma olasılığı 10098'de 99'dur; bu da %1'den daha azdır.

Temel oranı ihmal safsatası bu örnek özelinde aşırı yanıltıcıdır çünkü teröristlere göre çok daha fazla terörist olmayan vardır ve yanlış pozitiflerin sayısı (terörist olarak algılanmış terörist olmayanlar) gerçek pozitiflerden (terörist olarak algılanmış gerçek teröristler) çok daha yüksektir.

Psikolojideki bulgular

Deneyler, insanların özelleşmiş bilgiler varsa, bunları, genel bilgilere tercih ettiğini gösteriyor.

Bazı deneylerde, öğrencilerden varsayımsal başka öğrencilerin not ortalamalarını tahmin etmeleri istenmiştir. Not ortalamasını tahmin edecekleri spesifik bir öğrenciyle ilgili kendilerine tanımlayıcı kişisel bilgiler verildiğinde, bu bilgiler doğrudan okul performansıyla ilgili olmasa bile, not ortalaması dağılımlarıyla ilgili daha önceden verilmiş olan genel istatistiksel bilgileri reddetmeye meyilli oldukları gözlenmiştir. Bu bulgu, okula giriş süreçlerindeki mülakatların iptal edilmesi için bir argüman olarak bile kullanılmıştır çünkü mülakatı yapan kişiler doğru adayları temel istatistiksel çıkarımlardan daha başarılı olarak seçememektedir.

Psikolog Daniel Kahneman ve Amos Tversky bu bulguyu "temsil edilebilirlik" olarak adlandırılan daha basit bir kuralla ya da "höristik"le açıklamayı denedi. Bir olasılıkla ya da bir sebep-sonuçla ilgili birçok yargının, bir şeyin başka bir şeyi ya da kategoriyi ne derece temsil ettiğine bağlı olarak biçimlendiğini öne sürdüler. Kahneman temel oran ihmalini genişleme ihmalinin özel bir biçimi olarak görür. Richard Nisbett, "temel atıf hatası" gibi bazı atıf yanlılıklarının temel oran safsatasının bir örneği olduğunu ileri sürdü: İnsanlar, benzer durumlarda başkalarının nasıl davrandığına yönelik olarak "mutabakat bilgisi"ni ("temel oran"ı) kullanmıyor, bunun yerine daha basit mizaci atıfları tercih ediyordu.

İnsanların hangi koşullar altında temel oran bilgilerini dikkate aldıkları ya da almadıkları üzerine psikolojide tartışılmaktadır. "Kestirmeler ve yanlılıklar" alanındaki araştırmacılar, insanların temel oranları ihmal etmeye ve Bayes' teoremi gibi olasılıksal akıl yürütmenin çeşitli normlarını görmezden gelmeye meyilli olduklarını gösteren deneysel bulgular olduğunu vurguluyor. Bu araştırma alanından çıkan sonuç, insanın olasılıksal düşünmesinin kökten kusurlu ve hatalara açık oluşuydu. Başka araştırmacılar ise bilişsel süreçlerle bilgi formatları arasındaki bağlantıya vurgu yaptı ve bu tarz sonuçların genellikle garanti edilemeyeceğini ileri sürdü.

Yukarıdaki "Örnek 1"i tekrar ele alalım. İstenen çıkarım, rastgele seçilen bir sürücünün alkolmetre testi pozitif ise bu kişinin sarhoş olma olasılığını ne olduğuydu. Bu olasılık yukarıda gösterildiği gibi Bayes' teoremiyle hesaplanabilir fakat aynı bilgiyi sunmanın farklı yolları da var. Aslında tamamen aynı problemin farklı bir ifadesine bakalım:

1000 sürücüden 1'i sarhoş. Alkolmetre sarhol birinde kesinlikle yanılmıyor. Sarhoş olmayan her 999 kişiden 50 kişi de alkolmetre yanılıyor ve sarhoşluk gösteriyor. Bu durumda polisin rastgele birini durdurup test uyguladığını varsayalım. Alet "sarhoş" gösteriyor. Bu kişiyle ilgili başka bilgimizin olmadığını varsayarsak gerçekten sarhoş olma ihtimali ne kadardır?

Bu örnekte, ilgili sayısal bilgi -p(sarhoş), p(H|sarhoş), p(H|ayık)- belirli bir referans sınıfına ilişkin doğal frekanslar olarak sunulmuştur. Deneysel çalışmalar, bilgilerin bu şekilde sunulmasının sıradan insanların ve bilim insanlarının temel oran ihmalinin üstesinden gelmelerine yardımcı olarak çıkarımlarının Bayes' kuralıyla daha fazla uyuştuğunu gösteriyor. Bunun bir sonucu olarak, Cochrane gibi kurumlar sağlık istatistiklerinin paylaşımında bu sunuş biçiminin kullanılmasını öneriyor. İnsanlara, bu tarz bayesçi akıl yürütme problemlerini doğal frekans biçimlerine çevirmeyi öğretmek, onlara sadece olasılıkları ve yüzdeleri Bayes' teoremine yerleştirmeyi öğretmekten daha etkili. Doğal frekansların görsel temsillerinin de insanların daha doğru çıkarımlar yapmalarına yardımcı olduğu gösterildi.

Doğal frekans biçimleri neden yararlı? Önemli bir nedeni, gerekli hesaplamaları basitleştirdiği için istenen çıkarımları kolaylaştırması. İlk örnekteki p(sarhos|H) olasılığının alternatif bir hesaplanışında bu görülebilir:

p(sarhos|H) = N(sarhos ∩ H) / N(H) = 1 / 51 = 0.0196

Burada N(sarhos ∩ H), sarhoş olup pozitif alkolmetre sonucu alan sürücelerin sayısını belirtiyor. N(D), pozitif alkolmetre sonucu çıkan tüm testlerin sayısını belirtiyor. Bu denklemin yukarıdakine denk oluşu, olasılık teorisinin aksiyomlarından çıkarsanıyor; buna göre N(sarhoş ∩ H) = N × p (H | sarhoş) × p (sarhoş). Önemli bir nokta şu ki, bu denkelm matematiksel olarak Bayes' kuralına denk olsa da psikolojik olarak denk değil. Doğal frekansların kullanımı çıkarımı basitleştiriyor çünkü gereken matematiksel hem işlem normalize edilmiş kesirler (olasılıklar gibi) yerine doğal sayılar üzerinde yapılabiliyor hem yanlış pozitiflerin fazlalığını açık ediyor hem de doğal frekanslar bir "iç içe oturmuş yapı" sergiliyor.

Her frekans biçiminin bayesçi akıl yürütmeyi kolaylaştırmadığını ifade etmek önemli. Doğal frekanslar, temel oran bilgisini (örn. rastgele bir sürücü örneklemindeki sarhoş sürücü sayısı) koruyan doğal örneklemeden çıkan frekans bilgisine işaret eder. Bu, temel oranların a priori sabitlenmiş olduğu (örn. bilimsel deneyler) sistematik örneklemeden farklıdır. İkinci durumda, sonsal p(sarhos|H) olasılığını, hem sarhoş olan hem de testi pozitif çıkan sürücülerin sayısını testi pozitif çıkan tüm sürücülerin sayısıyla karşılaştırarak çıkarsamak mümkün değildir çünkü temel oran bilgisi korunmamıştır ve Bayes' teoremi kullanılarak doğrudan yeniden elde edilmelidir.

Ayrıca bakınız

Safsata