Apple’ın araştırması:Yapay zeka neden hala mantıklı düşünemiyor?

0
20 Okunma

Apple’ın yapay zeka bilim insanları tarafından yapılan yeni bir araştırma, büyük dil modellerine (LLM) dayalı motorların hala temel mantık yürütme becerilerinden yoksun olduğunu ortaya koydu. Meta ve OpenAI gibi önde gelen yapay zeka platformlarına dayanan bu modellerin, sorgulardaki küçük değişikliklerin bile cevapları büyük ölçüde etkilediği bulundu. Bu durum, yapay zeka sistemlerinin güvenilirliğini sorgulatan bir sonuca işaret ediyor. Yapay zeka, mantıklı düşünme konusunda henüz insan seviyesine ulaşamıyor ve bu da uygulamalarda ciddi sınırlamalara neden olabiliyor.

Yapay zeka ve mantıklı düşünme eksikliği: GSM-Symbolic testi

Apple’ın araştırmacıları, büyük dil modellerinin mantık yürütme yeteneklerini ölçmek için yeni bir test olan GSM-Symbolic benchmark’ını önerdi. Bu test, çeşitli yapay zeka modellerinin mantık yürütme becerilerini test etmeyi amaçlıyor. Yapılan ilk testler, sorulardaki küçük kelime değişikliklerinin bile farklı ve hatalı cevaplar ürettiğini ortaya koydu. Özellikle matematiksel mantığın kırılganlığı üzerine yapılan çalışmalar, bu modellerin performanslarının sorulardaki sayısal değerler veya cümle sayısı arttıkça belirgin şekilde düştüğünü gösterdi.

Araştırma, sorulara eklenen bağlamların, temel matematiksel çözümü etkilememesi gerektiği halde, yapay zeka modellerinin bu bilgileri hesaba katmaya başladığını ortaya koydu. Örneğin, bir soruya eklenen küçük bir cümlenin, doğru cevaba ulaşma oranını %65 oranında düşürebildiği görüldü. Apple’ın araştırması, bu tür kırılganlıkların, yapay zeka modellerinin güvenilirliğini ciddi şekilde etkilediğini ve bu temele dayanarak güvenilir sistemler oluşturmanın zor olduğunu belirtti.

Araştırmanın dikkate değer bir örneği, bir matematik problemiyle ilgiliydi. Soru, temel matematiksel işlem gerektiren bir durumu içeriyordu ve modele şu bilgi verildi: “Oliver, cuma günü 44 kivi topladı. Cumartesi günü ise 58 kivi topladı. Pazar günü, cuma günü topladığı kivilerin iki katını topladı.” Bu noktaya kadar sorunun cevabı netti; ancak daha sonra eklenen “pazar günü topladığı kivilerden beşi ortalamadan daha küçüktü” ifadesi, yapay zekanın hata yapmasına neden oldu.

Bu küçük detayın cevabı etkilememesi gerekiyordu; ancak OpenAI’nin modeli ve Meta’nın Llama3-8b modeli, bu beş küçük kiviyi toplamdan çıkardı ve yanlış bir sonuca ulaştı. Bu örnek, dil modellerinin mantık yürütme becerilerindeki eksiklikleri net bir şekilde ortaya koyuyor.

Bu sonuçlar, dil modellerinin daha çok gelişmiş bir desen tanıma sistemi gibi davrandığını ve mantıklı düşünmeden ziyade, gördüğü kalıplara dayanarak cevaplar ürettiğini gösteriyor. Apple’ın çalışması, bu modellerin ne kadar hassas olduğunu, hatta isimlerin değiştirilmesi gibi basit bir değişikliğin bile sonuçları değiştirebildiğini ortaya koydu. Bu kırılganlık, dil modellerinin henüz insan mantığına yakın bir şekilde işlem yapamadığını doğruluyor.

Yapay zeka modellerinin bu temel mantık hataları, yalnızca Apple’ın çalışmasıyla değil, 2019’da yapılan başka bir çalışma ile de destekleniyor. Bu önceki çalışma, Super Bowl oyunlarıyla ilgili sorulara eklenen gereksiz bilgi parçalarının yapay zekayı nasıl yanılttığını gözler önüne sermişti. Araştırmalar, yapay zekanın insanlar gibi düşünebilmesi için daha çok yol kat edilmesi gerektiğini vurguluyor.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz