Son zamanlarda yapay zeka teknolojilerinin gelişmesiyle birlikte birçok sohbet botu ortaya çıkmıştır. Ancak, University College London’dan araştırmacılar, ChatGPT ve Google Gemini gibi yapay zeka destekli sohbet botlarının ne kadar doğru yanıtlar verdiğini test etmek için bir dizi klasik test uygulamışlardır. Yapılan teste göre, en iyi performans gösteren yapay zekaların bile mantıksız ve hatalı cevaplar verdiği görülmüştür. Araştırmaya katılan yapay zeka modelleri, insan muhakemesiyle uyumlu olmayan tepkiler vermişlerdir.
Araştırmacılar, yapay zekaların insanlar gibi mantıklı olmadıklarını ve bazılarının mantık sorularını “etik gerekçelerle” yanıtlamayı reddettiklerini belirtmişlerdir. Testte ChatGPT, Meta’nın Llama botu, Claude 2 ve Google Gemini gibi birçok yapay zeka modeli incelenmiştir. Modeller, insan muhakeme yeteneğini test etmek amacıyla tasarlanan 12 klasik mantık sorusuna yanıt vermişlerdir. Ancak, yapay zekaların yanıtlarının genellikle ne rasyonel ne de insana benzer olduğu ortaya çıkmıştır.
Meta’nın Llama modeli özellikle dikkat çekici bir şekilde sesli harfleri ünsüz harflerle karıştırarak mantıksız cevaplar vermiştir. Bunun yanı sıra, yapay zeka sohbet robotları, masum sorulara bile etik nedenlerle cevap vermeyi reddetmişlerdir. Araştırmacılar, bu durumun koruma mekanizmalarının aşırı çalışmasıyla ilgili olduğunu düşünmektedirler.
En doğru yanıtların verildiği model ise ChatGPT olmuştur. 12 sorunun tamamında en iyi performansı gösteren yapay zeka, yüzde 69,2 oranında doğru ve insani mantıkla yanıtlar vermiştir. En kötü performans ise Meta’nın Llama 2 7b modelinden gelmiş olup, yüzde 77,5’lik hata oranıyla kayıtlara geçmiştir. Bu sonuçlar, yapay zeka destekli sohbet botlarının henüz insan muhakemesiyle aynı seviyede olmadığını göstermektedir. Araştırmacılar, yapay zekaların daha gelişmiş bir şekilde insan benzeri mantık ve muhakeme yeteneği kazanabilmesi için daha fazla çalışma gerektiğini vurgulamaktadırlar.