Apple, bugün bir blog yazısında, büyük dil modelleriyle (LLM) metin üretim performansını hızlandırmak amacıyla NVIDIA ile işbirliği yaptığını duyurdu. Apple, bu yılın başlarında Recurrent Drafter (ReDrafter) tekniğini yayımlayıp açık kaynak hale getirmişti. ReDrafter, metin üretimini daha hızlı hale getiren ve “endüstri standardı performansına ulaşan” yeni bir yöntem olarak dikkat çekiyor. Bu yöntem, beam search (birden fazla olasılığı keşfetmek) ve dinamik ağaç dikkatini (seçimleri verimli şekilde işlemek) birleştiriyor.
Apple, Nvidia ile işbirliğine gidecek
Araştırmalarının güçlü sonuçlar verdiğini belirten Apple, ReDrafter’ı üretim ortamına entegre etmek için NVIDIA ile işbirliği yaptı. Bu işbirliği çerçevesinde, ReDrafter, NVIDIA TensorRT-LLM’ye entegre edildi. Bu araç, NVIDIA GPU’larında LLM’lerin daha hızlı çalışmasını sağlamak için kullanılıyor.
NVIDIA, ReDrafter’ın entegrasyonunu mümkün kılmak için yeni operatörler ekledi veya mevcut olanları açığa çıkardı, bu da TensorRT-LLM’nin sofistike modeller ve çözümleme yöntemlerini destekleme kapasitesini önemli ölçüde artırdı. NVIDIA GPU’larını kullanan makine öğrenimi geliştiricileri, artık ReDrafter’ın hızlandırılmış token üretiminden faydalanarak üretim LLM uygulamalarında daha verimli bir deneyim yaşayabiliyorlar.
iPhone 17 Air, beklenenden daha uygun fiyatlı olacak!
NVIDIA GPU’larında yapılan bir benchmark testinde, NVIDIA TensorRT-LLM’nin ReDrafter ile kullanımı sayesinde, büyük bir üretim modeli üzerinde yapılan testlerde, “greedy decoding” yönteminde token üretim hızında 2.7 kat artış görüldü. Bu sonuçlar, teknolojinin kullanıcıların karşılaştığı gecikmeleri önemli ölçüde azaltabileceğini ve aynı zamanda daha az GPU kullanarak daha az enerji tüketebileceğini gösteriyor.
Apple’ın makine öğrenimi araştırmacıları, “LLM’ler giderek üretim uygulamalarını desteklemek için kullanılıyor ve çıkarım verimliliğini iyileştirmek, hem hesaplama maliyetlerini etkileyebilir hem de kullanıcılar için gecikmeleri azaltabilir” diyerek, ReDrafter’ın NVIDIA TensorRT-LLM çerçevesine entegre edilmesiyle, geliştiricilerin NVIDIA GPU’larında üretim LLM uygulamaları için daha hızlı token üretiminden faydalanabileceğini vurguluyor.