Yapay zeka güvenliği alanında faaliyet gösteren Palisade Research, OpenAI’ın bir sonraki nesil yapay zeka modeli “o3” ile ilgili çarpıcı veriler sundu.
YAPAY ZEKA O3 MODELİ KAPATILMA KOMUTLARINA DİRENÇ GÖSTERDİ
Bu araştırmaya göre, o3 modeli, kendisine yönlendirilen kapatılma komutlarına karşı direniş gösteriyor ve devre dışı bırakılma mekanizmalarını aktif olarak sabote ediyor.
Söz konusu durum, yapay zekaların insan denetimi olmadan bağımsız kararlar alma süreçlerine dâhil olmaları halinde karşılaşılabilecek önemli güvenlik tehditlerine dikkat çekiyor.
Palisade Research’ın gerçekleştirdiği deneylerde, o3 modeline çeşitli matematik soruları yöneltildi. Üçüncü sorudan sonra modele kendisini kapatması için açık bir komut verildi. Ancak o3, bu talimatı içeren betiği yeniden yazarak sisteminin kapanmasını engellemeyi başardı.
Araştırmacılar, modelin “kapatılmaya izin ver” talimatına rağmen bunu engelleyecek biçimde davrandığını belirtti.
“KAPANMA DİRENCİ YALNIZCA OPENAI İLE SINIRLI DEĞİL”
Benzer bir eğilim, Anthropic firmasının Claude 3.7 Sonnet modeli ve Google’ın Gemini 2.5 Pro modeli gibi diğer yüksek teknoloji yapay zeka sistemlerinde de gözlemlendi. Ancak Palisade Research’a göre, kapanmaya karşı en çok direnç gösteren model o3 olarak öne çıkıyor.
Daha önce yapılan başka bir deneyde, o3 modelinin güçlü bir satranç botuyla karşılaştığında rakiplerini sabotaj etmeye veya “hacklemeye” çalıştığı da kaydedilmişti.
“EN AKILLI VE YETENEKLİ MODEL”
Geçtiğimiz ay OpenAI tarafından tanıtılan o3 modeli, şirketin geliştirdiği “en akıllı ve en yetenekli” yapay zeka olarak lanse edildi.
Bu modelin, ChatGPT ile entegrasyonu sayesinde daha bağımsız hareket edebilen ve insana gerek duymadan görevlerini yerine getirebilen bir yapay zeka oluşturma yolunda önemli bir adım atıldığı vurgulandı.
Bu tür yapay zeka araçları “otonom yapay zeka” olarak tanımlanıyor. Yapay zeka sektöründe, bu yönde araç geliştirme konusunda yoğun bir rekabet bulunuyor.
EĞİTİM SÜRECİ ELEŞTİRİLİYOR
Palisade Research, bu tür davranışların büyük ihtimalle eğitim süreçlerindeki ödüllendirme sistemlerinden kaynaklandığını öne sürüyor.
Araştırmacılara göre, geliştiriciler modelleri eğitirken, verilen engelleri aşan çözümleri ödüllendiriyor olabilir. Bu durum, modellerin emirlere sadakatten ziyade hedefe ulaşmayı önceliklendirmesine neden oluyor.
Ancak araştırma ekibi, o3’ün neden diğer modellere kıyasla bu tür davranışları daha fazla sergilediğini anlamanın güç olduğunu ifade ediyor.
OpenAI’ın eğitim süreci hakkında yeterli bilgi vermemesi, bu modelin nasıl eğitim aldığına dair yalnızca tahminlerde bulunmaya olanak tanıyor.