Savaş Akın – Diriliş Postası
Bu terim, bir dil modelinin doğru olmayan veriler sunmasını tanımlamak için kullanılıyor ve okuyucular, bu hatalı bilgileri gerçek olarak algılayabiliyor. Bu nedenle, dil modeli geliştiricileri, bu sorunu çözmek için büyük çaba sarf ediyor.
Galileo adlı araştırma şirketi, 22 farklı dil modelinin halüsinasyon sıklığını ölçmek amacıyla kapsamlı bir çalışma gerçekleştirdi. Sonuçlar, dil modellerinin doğruluk oranlarının oldukça değişken olduğunu ortaya koydu. Örneğin, Anthropic’in Claude 3.5 Sonne’si, kısa metinlerde %97, orta uzunluktaki metinlerde %100 ve uzun metinlerde de %100 doğruluk oranıyla ilk sırada yer aldı. Açık kaynak modeller arasında ise Qwen2-72b Instruct, kısa metinlerde %95 ve orta uzunluktaki metinlerde %100 doğrulukla en yüksek puanı aldı.
Araştırmanın dikkat çekici bir bulgusu, çoğu modelin orta uzunluktaki metinlerde en iyi performansı göstermesi. Bu durum, ChatGPT gibi dil modellerine spesifik bir metinle ilgili sorular sorarken orta uzunluktaki metinlerin sağlanmasının en doğru sonuçları elde etmemizi sağlayabileceğini gösteriyor. Geçtiğimiz yıl yapılan testlerde en başarılı modelin %73 doğruluk oranına sahip olduğu göz önüne alındığında, dil modellerinin önemli bir gelişim kaydettiği anlaşılmaktadır.
Ancak, halüsinasyon içeren yanlış bilgilerin varlığını göz ardı etmemek gerekiyor. Bu tür yanlışlar, özellikle karar alma süreçlerinde ciddi tehlikeler yaratabilir. Bu nedenle, kullanıcıların yapay zekâ ile etkileşimlerinde dikkatli olmaları ve sunulan bilgileri mutlaka doğrulamaları önemlidir.
Yapay zekâ dil modellerinin doğruluk oranları giderek artarken, halüsinasyon sorununun hala mevcut olduğu ve bu durumun ciddi sonuçlar doğurabileceği unutulmamalıdır. Bu alanda yapılan araştırmalar, gelecekte daha güvenilir ve doğru dil modellerinin geliştirilmesine katkı sağlayacaktır.