Yapay zeka teknolojileri geliştiren Cerebras Systems, NeurIPS 2024 konferansında çığır açan yeniliklerini tanıttı. Şirket, Llama açık kaynak yapay zeka modelini 70 milyar parametrelik versiyonunu, “chain of thought” olarak bilinen yöntemle, 405 milyar parametrelik versiyonla eşdeğer bir performansa ulaştırmayı başardı. Bu yöntem, modelin yanıt üretirken bir sorunu adım adım çözme sürecini detaylandırmasını sağlayarak daha “anlaşılabilir” yapay zeka çözümleri sunuyor.
Küçük modellerde büyük başarı
Cerebras’ın bu başarısı, şirketin AI optimizasyonundaki liderliğini kanıtlamakla kalmadı, aynı zamanda donanım tarafında sunduğu yeniliklerle de dikkat çekti. Özellikle şirketin CS-3 yapay zeka bilgisayarı ve dünyanın en büyük yarı iletken çipi WSE-3, bu başarıların temel taşlarını oluşturuyor.
Cerebras, Llama’nın daha küçük bir modelini daha büyük modellerle aynı performansa getirebilmek için özel bir yöntem geliştirdi. “Chain of thought” işlemi, bir yapay zeka modelinin çözüm üretirken kullandığı hesaplama adımlarını detaylandırmasını içeriyor. Bu, hem daha az veri ve zaman gerektiriyor hem de daha düşük donanım maliyeti ile yüksek performans sağlıyor. Cerebras, bu yöntemle Llama 3.1’in 70 milyar parametrelik modelini, 405 milyar parametrelik büyük modelin seviyesine çıkardı.
Bu yenilik sadece performansla sınırlı kalmadı. Cerebras, Llama 3.3 modelini de “frontier” olarak adlandırılan ileri düzey modellerin performansına ulaştırdı. Bu başarı, daha küçük modellerle büyük ölçekli yapay zeka çözümleri üretilebileceğini gösteriyor.
Cerebras’ın geliştirdiği CePO (Cerebras Planning and Optimization) yöntemi, geleneksel modellerden farklı olarak planlama, yürütme ve doğrulama döngülerini optimize ediyor. Bu sayede, OpenAI’nin benzer modellerinde dakikalar süren işlemler, Cerebras’ın sistemlerinde saniyeler içinde tamamlanabiliyor. Şirketin CS-3 sistemleri, Nvidia ve AMD gibi geleneksel donanımlara kıyasla çok daha düşük enerji tüketimi ve alan gereksinimi ile aynı işlemleri gerçekleştirebiliyor.
Cerebras ayrıca, 1 trilyon parametreli büyük dil modellerini tek bir cihazda eğitme konusunda da önemli bir ilerleme kaydetti. Şirketin bu başarısı, büyük ölçekli yapay zeka eğitimlerini daha erişilebilir ve ekonomik hâle getirme potansiyeli taşıyor.