İkbari
Thursday, 19 February 2026
Breaking

Gerçek Dünya Tıbbi Soruları Yapay Zeka Sohbet Botlarını Şaşırtıyor

Son araştırma, yapay zeka sohbet botlarının insanlarla etkil

Gerçek Dünya Tıbbi Soruları Yapay Zeka Sohbet Botlarını Şaşırtıyor
7DAYES
3 hours ago
1

ABD - Ekhbary Haber Ajansı

Yapay Zeka Sohbet Botları Gerçek Dünya Tıbbi Danışmanlığında Yetersiz Kalıyor, Oxford Araştırması Ortaya Koyuyor

Kontrollü laboratuvar ortamlarında etkileyici bir doğruluk sergileyen en gelişmiş yapay zeka (AI) sohbet botları, insanlar tarafından sorulan gerçek dünya tıbbi sorularını yanıtlama görevinde önemli ölçüde yetersiz kalıyor. Prestijli Nature Medicine dergisinde 9 Şubat'ta yayınlanan çığır açıcı bir çalışma, bu gelişmiş yapay zeka sistemlerinin, bireyler sağlık sorunları için yardım aradığında genellikle basit internet aramalarından daha kötü performans gösterdiğini ortaya koyuyor.

Oxford Üniversitesi Akıl Yürütme Makineleri Laboratuvarı'ndaki bir ekip tarafından yürütülen araştırma, yapay zekanın potansiyeli ile pratik performansı arasında keskin bir karşıtlık ortaya koydu. Laboratuvar ortamında, yapay zeka sohbet botları %95 gibi dikkate değer bir doğrulukla tıbbi sorunları tespit edebiliyor ve acil tıbbi yardım veya doktora başvurma gibi uygun eylemleri %56'dan fazla oranda doğru bir şekilde önerebiliyordu. Bu rakamlar başlangıçta ön tıbbi değerlendirme için güçlü bir yeni araç olasılığını gösteriyordu.

Ancak, aynı yapay zeka modelleri, yaklaşık 1.300 çalışma gönüllüsü ile yapılan konuşma etkileşimleri aracılığıyla tıbbi senaryolarla karşılaştığında, sonuçlar önemli ölçüde daha az etkileyiciydi. Teşhis koymadaki doğruluk %35'in altına düştü ve doğru eylem planını belirleme yeteneği yaklaşık %44'e geriledi. Bu önemli düşüş, yapay zekanın geniş veri işleme yetenekleri ile insan iletişiminin inceliklerini ve karmaşık tıbbi durumları yönetme yeteneği arasındaki kritik bir kopukluğu vurgulamaktadır.

Çalışmanın başındaki matematikçi Adam Mahdi, temel sorunu şu şekilde ifade etti: "Yapay zekanın tıbbi bilgisi var, ancak insanlar ondan faydalı tavsiyeler almakta zorlanıyor." Sorunun, yapay zekanın tıbbi bilgiyi anlama konusundaki eksikliği değil, kullanıcıların bu gelişmiş Büyük Dil Modelleri (LLM) ile etkileşim kurma biçimi olduğunu açıkladı. Çalışmada GPT-4o, Command R+ ve Llama 3 dahil olmak üzere önde gelen modeller test edildi.

Daha fazla araştırma yapmak amacıyla, araştırmacılar yapay zeka sohbet botlarının performansını geleneksel yöntemlerle karşılaştırdılar. Gönüllüler rastgele olarak, tıbbi senaryoları değerlendirmek için ya bir LLM'yi ya da Google aramaları gibi diğer yöntemleri kullanmak üzere atandılar. Kritik olarak, Google gibi arama motorlarına başvuran katılımcılar, sohbet botlarını kullananların ortalama %35'lik doğruluğuna kıyasla %40'ın üzerinde bir doğruluk oranıyla sorunu teşhis etmede daha başarılı oldular. Mahdi, bu farkın istatistiksel olarak anlamlı olduğunu vurgulayarak, "Dr. Google"ın mevcut yapay zeka sohbet botlarından daha güvenilir bir ilk tıbbi rehberlik kaynağı olabileceğini öne sürdü.

Araştırma, yapay zeka sohbet botlarının çalışmanın yapıldığı tarihte (2024 sonu) gerçekten de en son teknoloji olduğunu ve temel tıbbi bilgilerini geliştirmeyi zorlaştırdığını göstermektedir. Tespit edilen ana engel, bizzat insan-yapay zeka etkileşimiydi. Kullanıcılar genellikle bilgileri bir kerede tam bir resim sunmak yerine artımlı olarak sağlarlar; bu da yapay zekayı ilgisiz ayrıntılarla kolayca dikkatini dağıtabilir veya kafasını karıştırabilir.

Ayrıca, araştırma, kullanıcıların belirtileri tanımlama biçimindeki küçük değişikliklerin, yapay zekanın yanıtını önemli ölçüde değiştirebileceğini ortaya koydu. Potansiyel olarak ölümcül bir felç türü olan subaraknoid kanama ile ilgili çarpıcı bir örnekte, bir gönüllünün "aniden ortaya çıkan en şiddetli baş ağrısı" tanımı, GPT-4o'yu doğru bir şekilde acil tıbbi yardım tavsiyesinde bulunmaya yöneltti. Buna karşılık, "korkunç bir baş ağrısı" tarif eden başka bir gönüllü, migren önerisi aldı ve karanlık bir odada dinlenmesi tavsiye edildi – bu da potansiyel olarak hayatı tehdit eden yanlış bir teşhisti.

Bu küçük dilsel değişikliklere dayanan yapay zeka çıktısındaki bu tür dramatik kaymaların nedenleri belirsizliğini koruyor ve yapay zekanın "kara kutu problemi" kapsamına giriyor; bu problemde geliştiriciler bile modelin akıl yürütme sürecini tam olarak izleyemezler. Bu öngörülemezlik, bu araçların doğrudan hasta bakımında konuşlandırılmasının güvenliği ve güvenilirliği hakkında ciddi endişeler doğurmaktadır.

Çalışmanın "test edilen dil modellerinden hiçbirinin doğrudan hasta bakımında kullanıma hazır olmadığı" sonucuna varması, sağlık teknolojisi sektöründeki daha geniş endişelerle uyumludur. Küresel kar amacı gütmeyen bir hasta güvenliği kuruluşu olan ECRI'nin Ocak ayında yayınlanan bir raporu, tıpta yapay zeka sohbet botlarının kullanımını 2026 yılı için en önemli sağlık teknolojisi tehlikesi olarak sıraladı. Rapor, yapay zeka sohbet botlarının güvenle hatalı teşhisler koyduğu, anatomik parçaları uydurduğu, tehlikeli olabilecek tıbbi ürünler veya prosedürler önerdiği ve sağlık eşitsizliklerini kötüleştiren önyargıları pekiştirdiği örnekleri aktardı.

Bu risklere rağmen, yapay zekanın sağlık hizmetlerine entegrasyonu hızlanıyor. Doktorlar, kayıtları yazıya dökmek ve test sonuçlarını gözden geçirmek gibi görevler için sohbet botlarını giderek daha fazla kullanıyor. OpenAI ve Anthropic, sağlık hizmetlerine özel sürümlerini piyasaya sürdü ve ChatGPT'nin günde 40 milyondan fazla sağlık sorusunu yanıtladığı bildiriliyor. ECRI'nin cihaz güvenliğinden sorumlu başkan yardımcısı Scott Lucas, yapay zekanın cazibesini kabul etti: "Milyarlarca veri noktasına erişebilirler... ve bunları sindirilebilir, inanılır, ilgi çekici bir formata dönüştürebilirler, böylece tam olarak sorduğunuz soruya dair nokta atışı tavsiyeler verebilirler." Ancak uyardı: "ticari LLM'ler birincil klinik kullanım için hazır değil. LLM'nin çıktısına tamamen güvenmek güvenli değildir."

Uzmanlar, gelecekte hem yapay zeka modellerinin hem de kullanıcı yeterliliğinin gelişerek Oxford çalışmasının vurguladığı iletişim boşluğunu potansiyel olarak kapatacağını öngörüyor. Harvard Tıp Fakültesi'nde tıbbi yapay zeka araştırmacısı Michelle Li gibi araştırmacılar, gelişmiş eğitim, test ve uygulama stratejileriyle yapay zeka güvenilirliğini artırmak için aktif olarak çalışıyorlar. Mahdi de, yapay zeka geliştiricilerine daha sağlam ve güvenilir tıbbi yapay zeka asistanları oluşturma konusunda rehberlik etmeyi amaçlayarak, farklı dillerde ve zaman içinde daha fazla çalışma yapmayı planlıyor. Mahdi, "İlk adım ölçüm sorununu çözmektir" dedi. "Önemli olanı ölçmüyorduk" – ki bu da yapay zekanın gerçek dünya insan etkileşiminin karmaşık ve öngörülemeyen ortamında nasıl performans gösterdiğidir.

Etiketler: # Yapay zeka sohbet botları # tıbbi tavsiye # sağlık teknolojisi # teşhis doğruluğu # insan-yapay zeka etkileşimi # LLM # Nature Medicine # Oxford araştırması # yapay zeka güvenliği # klinik kullanım