OpenAI, konuşma teknolojileri alanındaki gelişmelerine bir yenisini daha ekleyerek “gpt-realtime” adlı yeni modelini duyurdu. Bu model, doğal dil anlama ve konuşma üretimi konularında önceki sürümlere göre çok daha gelişmiş bir performans sunmakla kalmıyor, aynı zamanda daha uygun fiyatlarla geliştiricilerin erişimine açılıyor. Böylece hem kullanıcı deneyimi iyileşiyor hem de bu alandaki uygulama geliştirme süreçleri daha erişilebilir hale geliyor.
gpt-realtime resmen görücüye çıktı
gpt-realtime, özellikle karmaşık komutları anlama ve bunları doğru şekilde yerine getirme konusunda önemli bir ilerleme kaydetmiş durumda. OpenAI, bu yeni modelin örneğin araç çağırma gibi görevlerde daha az hata yaptığını ve verilen sistem komutlarını çok daha isabetli şekilde yorumladığını vurguluyor. Ayrıca modelin ürettiği seslerin daha doğal, tonlamalarının daha gerçekçi ve ifadelerinin daha canlı olması dikkat çekiyor.
OpenAI, ilk kez 2024’ün son çeyreğinde sunduğu Realtime API ile zaten binlerce geliştiriciye doğal konuşma özellikleri kazandırmıştı. gpt-realtime ile bu deneyim bir adım ileri taşınıyor. Başlangıçta altı ses seçeneği sunan sistem, önce sekize, şimdi ise toplamda on sese ulaşarak çeşitliliğini artırdı. Yeni eklenen Marin ve Cedar seslerinin yanı sıra mevcut sesler de daha akıcı hale getirildi.
Apple bu alanda liderliği kaybetti
Modelin teknik başarıları da kayda değer. Örneğin Big Bench Audio testinde önceki versiyonun %65,6 olan doğruluk oranı, gpt-realtime ile %82,8’e çıkmış durumda. MultiChallenge Audio Benchmark testinde de %30,5’lik skorla bir önceki %20,6’lık başarı oranını geride bırakmayı başardı.
OpenAI ayrıca Realtime API’ye yeni özellikler de kazandırdı. Artık sistem, uzak sunucularla entegrasyon (MCP), görsel girdilerle çalışma ve SIP protokolü üzerinden telefon aramalarını destekleyebiliyor. Geliştiriciler, sıklıkla kullandıkları komutları kaydedip tekrar kullanma imkanına da sahip.
Tüm bu yeniliklere rağmen OpenAI, fiyat politikasını daha da rekabetçi hale getirdi. gpt-realtime, önceki “gpt-4o-realtime-preview” modeline göre %20 daha uygun fiyatlı sunuluyor. 1 milyon ses girdi tokeni 32 dolara, 1 milyon ses çıktı tokeni ise 64 dolara indirildi. Bu gelişme, sesli yapay zeka çözümlerinin daha yaygın ve erişilebilir hale gelmesinde önemli bir adım olarak görülüyor.