İspanya’daki Universitat Politècnica de València’dan yapay zekâ araştırmacıları, BigScience’in BLOOM’u, Meta’nın Llama’sı ve OpenAI’nin GPT modellerinin son sürümlerini matematik, bilim ve coğrafya gibi alanlarda binlerce soru sorarak test etti.
Araştırmacılar, her modelin verdiği cevapların kalitesini karşılaştırdı ve bunları doğru, yanlış veya kaçınmacı olarak sınıflandırdı.
Nature dergisinde yayımlanan çalışmaya göre, daha gelişmiş modellerin zorlayıcı problemleri çözme konusundaki başarısı artmış olsa da, doğru yanıt verip veremedikleri konusunda daha az şeffaf oldukları görüldü.
Eski LLM modelleri, cevap bulamadıklarını veya daha fazla bilgiye ihtiyaç duyduklarını belirtirken, yeni modeller basit sorularda bile tahmin yapma ve yanlış yanıt verme eğilimindeler.
Yapay zekâ büyük dil modelleri (LLM), veri kümeleri temelinde yeni içerik anlamak, tahmin etmek ve üretmek için derin öğrenme algoritmaları kullanır. Ancak araştırmada, yeni modeller daha karmaşık problemleri daha doğru bir şekilde çözebilse de, basit sorularda bile bazı hatalar yapmaya devam etti.
Araştırma makalesine göre, "Tam güvenilirlik, çok düşük zorluk seviyelerinde bile henüz sağlanmış değil." Modellerin zorlayıcı problemleri çözebildiği halde basit sorularda bile başarısız olabildikleri ifade edildi.
'Yanıt Vermekten Kaçınma Eğilimi Azaldı'
Bu durum, OpenAI'nin GPT-4 modelinde, önceki sürümü olan GPT-3.5'e kıyasla "kaçınmacı" yanıtların önemli ölçüde azalmasıyla da ortaya çıkıyor.
Çalışma yazarları, "Bu durum, daha yeni LLM'lerin kendi yeteneklerinin dışındaki soruları yanıtlamaktan daha başarılı bir şekilde kaçınacağı beklentisiyle uyuşmuyor." ifadesine yer verdi.
Araştırmacılar, teknolojinin gelişmesine rağmen modellerin performansında temel sorunları çözme konusunda "görünür bir iyileşme" olmadığını belirtti.