OpenAI’nin yeni nesil yapay zeka modeli o1, beklenmedik bir şekilde bazen soruları yanıtlamadan önce düşünme sürecinde farklı dillere geçiş yapmasıyla dikkat çekiyor. Kullanıcılar, İngilizce sorulara yanıt arayan modelin, süreç sırasında Çinceden Hindiceye kadar değişen dillerde işlem yaptığı durumları fark etti. Ancak OpenAI, bu garip davranışa henüz bir açıklama getirmiş değil.
o1 modelindeki eğitim verileri ve dil etkisi
O1 modeli, bir soruya yanıt verirken adım adım bir mantık yürütme süreci izliyor. Örneğin, “Strawberry kelimesinde kaç tane R harfi var?” sorusuna yanıt verirken, modelin İngilizce bir soru üzerinde çalışırken aniden düşünme adımlarını Çince veya başka bir dilde tamamladığı görülüyor. Reddit ve X kullanıcıları bu davranışı sorgularken, uzmanlar bunun altında yatan sebepler üzerine teoriler üretmeye başladı.
Bazı uzmanlar, bu davranışın modelin eğitim sürecinde kullanılan veri setlerindeki dil çeşitliliğinden kaynaklanabileceğini öne sürüyor. Google DeepMind araştırmacısı Ted Xiao, OpenAI gibi şirketlerin genellikle Çin merkezli üçüncü taraf veri etiketleme hizmetlerini kullandığını belirterek, bu durumun Çince dilinin modele etkisini açıklayabileceğini ifade etti. Etiketleme süreçlerinde kullanılan dilin, modelin öğrenme alışkanlıklarını şekillendirebileceği düşünülüyor.
Etiketleme süreci, yapay zeka modellerinin veriyi anlaması ve yorumlaması için kritik bir aşama. Ancak bu sürece dahil olan dil ve kültürel faktörler, modelin çıktılarında beklenmeyen sapmalara neden olabiliyor. Örneğin, daha önce yapılan çalışmalar, etiketleme sırasında oluşan önyargıların yapay zeka modellerinde toksik dil algısını artırabildiğini ortaya koymuştu.
Bazı araştırmacılar, modelin farklı diller kullanmasının, belirli bir görevi yerine getirirken en verimli yolu seçme eğiliminden kaynaklanabileceğini savunuyor. Hugging Face mühendislerinden Tiezhen Wang, matematik yaparken Çince’yi tercih ettiğini çünkü Çince rakamların tek heceli olmasının işlemleri kolaylaştırdığını belirtti. Benzer şekilde, modelin de belirli görevler için daha uygun dilleri seçebileceği öne sürülüyor.
AI uzmanı Matthew Guzdial ise modelin dil farkını algılamadığını ve tüm metinlerin yalnızca birer “token” olarak işlendiğini hatırlatıyor. Tokenlar, kelimelerin parçalarına veya bireysel karakterlere ayrılmasını sağlayan birimlerdir. Model, bu tokenlar arasında olasılıksal bağlantılar kurarak yanıt verir ve diller arasındaki geçiş, bu bağlantıların doğal bir sonucu olabilir.
Ancak Allen Institute for AI araştırmacısı Luca Soldaini, bu tür davranışların modellenin iç işleyişinin opaklığı nedeniyle tam olarak açıklanamayabileceğini söylüyor. Yapay zeka sistemlerinin şeffaf olmaması, bu tür anomalilerin kökenlerini belirlemeyi zorlaştırıyor. Bu durum, yapay zeka geliştirme süreçlerinde daha fazla şeffaflık ve hesap verilebilirlik ihtiyacını bir kez daha gündeme getiriyor.
OpenAI’nin bu konu hakkında bir açıklama yapmaması, o1 modelinin düşünme süreçlerindeki bu sıra dışı dil geçişlerini yalnızca teorilerle açıklayabilmemize neden oluyor. Ancak bu durum, yapay zekanın insan benzeri düşünme süreçlerini taklit ederken karşılaştığı karmaşıklıkları ve dilin model eğitimi üzerindeki etkisini anlamak için önemli bir fırsat sunuyor.