Apple, büyük dil modellerinin (LLM) performansını artırmak için NVIDIA ile iş birliği yaparak yeni bir teknik geliştirdiğini duyurdu. Bu teknik, yapay zeka uygulamalarında metin oluşturma süreçlerini hızlandırarak önemli bir yenilik sunuyor.
NVIDIA TensorRT-LLM entegrasyonu ile performans artışı
Apple’ın bu yıl başında yayınladığı ve açık kaynak olarak sunduğu Recurrent Drafter (ReDrafter) adlı yöntem, ışın arama (beam search) ve dinamik ağaç dikkat (dynamic tree attention) yöntemlerini birleştirerek metin üretiminde hız ve verimlilik sağlıyor. Işın arama, birden fazla olası metin dizisini aynı anda keşfederek daha iyi sonuçlar elde etmeye odaklanırken, ağaç dikkat yöntemi bu diziler arasındaki gereksiz tekrarları düzenleyerek işlemi optimize ediyor.
Apple, ReDrafter teknolojisini NVIDIA’nın TensorRT-LLM çerçevesine entegre etti. Bu çerçeve, NVIDIA GPU’larında çalışan büyük dil modellerini optimize etmeye odaklanıyor. Apple’ın açıklamasına göre, bu entegrasyon, milyarlarca parametre içeren bir üretim modelinde saniyede üretilen token sayısında 2,7 katlık bir hız artışı sağladı. Bu gelişme, kullanıcılar için algılanan gecikmeyi azaltırken GPU kullanımını ve enerji tüketimini de düşürüyor.
Apple’ın Makine Öğrenimi Araştırma blogunda şu açıklama yer aldı:
“LLM’ler, üretim uygulamalarını desteklemek için giderek daha fazla kullanılıyor ve çıkarım verimliliğini artırmak, hem hesaplama maliyetlerini hem de kullanıcılar için gecikmeyi azaltabilir. ReDrafter’ın spekülatif kod çözme konusundaki yenilikçi yaklaşımı, NVIDIA TensorRT-LLM çerçevesine entegre edildiğinde, geliştiriciler artık üretim LLM uygulamaları için NVIDIA GPU’larda daha hızlı token üretiminden faydalanabilir.”
Apple ve NVIDIA’nın bu yenilikçi teknolojiyi açık kaynaklı hale getirmesi, geliştiricilerin ReDrafter’ı kendi uygulamalarına entegre etmelerine olanak tanıyor. Detaylı bilgilere Apple’ın web sitesinden ve NVIDIA’nın geliştirici blogundan ulaşılabilir.