
DeepSeek R2 Sızdırıldı: 1,2 Trilyon Parametreli Model, GPT-4'e %97 Daha Ucuz Alternatif Olabilir
Çin merkezli DeepSeek'in yeni yapay zekâ modeli R2'nin özellikleri sızdırıldı. 1,2 trilyon parametreli bu devasa model, Huawei'nin Ascend 910B GPU'ları üzerinde eğitildi. Sızan bilgilere göre, R2 modeli GPT-4'e kıyasla %97 daha düşük maliyetle çalışabiliyor. Ayrıca, COCO görsel testlerinde %92,4 başarı oranı yakalayarak insan seviyesine yakın görsel yetenekler sergiliyor. Bu gelişmeler, yapay zekâ alanında yeni bir rekabetin habercisi olabilir.
Çinli yapay zekâ şirketi DeepSeek, geliştirdiği modellerle tüm dünyada gündem olmayı başarmıştı. Şirket, OpenAI’ın ChatGPT’si gibi rakiplerine kıyasla gelişmiş özellikleri uygun maliyetlerle sunabilmesiyle dikkatleri toplamıştı. Şimdi ise yeni modelini çıkarmaya hazırlanıyordu.
Biz de DeepSeek R2 hakkında ortaya çıkan bilgilere bakıyoruz. Bu bilgiler doğru çıkarsa ChatGPT yine çok büyük bir rakiple karşı karşıya kalacak diyebilirizi.
ddialara göre yeni nesil DeepSeek R2 modeli; önceki modeli katlayarak 1,2 trilyon parametreli bir model olarak karşımıza çıkacak. Modelin, yapay zekâ iş yükleri için optimize edilmiş MoE isimli hibrit mimari üzerinde inşa edildiği de söyleniyor. Yeni R2, Huawei’nin Ascend 910B yapay zekâ GPU’ları üzerinde eğitilmiş.
Böylece OpenAI’ın ChatGPT’de kullandığı GPT-4 modellerine kıyasla 1 milyon token başına 0,07 dolar ile %97 daha ucuz olmayı başarmış. Bu, çok daha uygun maliyete çok yüksek seviyede yapay zekâ özellikleri sunabileceği anlamına geliyor. Özellikle işletmeler için kullanımında çok fark yaratacağını söyleyebiliriz. Ayrıca düşük enerji tüketimi, Ascend 910B yapay zekâ çipinin %82 civarında kullanımı gibi şeyler de iddialar arasında.
Görme yeteneklerinde iyileşme, daha az halüsinasyon
Yine açık kaynaklı olacak modelin görsel yeteneklerinin de büyük anlamda iyileştirileceği aktarılıyor. Öyle ki COCO görsel testlerinde %92,4 seviyesine çıkabilmiş. Bu da insan seviyesine yakın görüş yeteneklerine sahip olabileceği anlamına geliyor olabilir. Gelen yenilikler sayesinde halüsinasyonun, yani yanlış bilgi vermenin de azaldığını görme ihtimalimiz fazla.
DeepSeek’in yeni modelinin ne zaman tanıtılacağı konusunda şimdilik bir bilgi yok. Bazı iddialar, bu hafta gelebileceği yönünde. Doğru çıkıp çıkmayacağını bekleyip göreceğiz.