Nvidia’nın yeni açık kaynaklı yapay zeka modeli, kıyaslama testlerinde GPT-4o’yu geride bırakıyor

Yapay zekaya derin bir hayranlığı olan deneyimli bir araştırmacı olarak, Nvidia’nın son ürünü Llama-3.1-Nemotron-70B-Instruct’un ilgimi çektiğini fark ettim. Yapay zeka modellerini ve yeteneklerini incelemek için sayısız saatler harcamış biri olarak, bu duyurunun merakımı uyandırdığını rahatlıkla söyleyebilirim.

15 Ekim’de Nvidia, yenilikçi bir yapay zeka modelini gelişigüzel tanıttı; Bu yeni modelin performans açısından GPT-4o ve Claude-3 gibi mevcut üst düzey yapay zeka sistemlerini geride bıraktığı iddia ediliyor.

Nvidia AI Developer ekibinin X.com sosyal medya platformunda paylaştığı bir gönderiye dayanarak, Llama-3.1-Nemotron-70B-Instruct modelinin şu anda lmarena.AI’nin Chatbot Arena’sındaki en iyi modellerden biri olduğu belirtildi.

Nvidia'nın yeni açık kaynaklı yapay zeka modeli, kıyaslama testlerinde GPT-4o'yu geride bırakıyor

Nemotron

Temel olarak, Llama-3.1-Nemotron-70B-Instruct, açık kaynak Llama-3.1-70B-Instruct’ın revize edilmiş bir uyarlamasıdır. Adındaki “Nemotron”, Nvidia’nın nihai ürüne katılımını ifade ediyor.

Meta’nın “lama grupları” koleksiyonu, programcılar için ücretsiz bir başlangıç noktası görevi görerek modelleri oluşturmalarına ve genişletmelerine olanak tanır.

Nemotron söz konusu olduğunda Nvidia, OpenAI’nin ChatGPT’si ve Anthropic’in Claude-3’ü gibi iyi bilinen modelleri yardımseverlik açısından aşmayı amaçlayan bir sistem oluşturmaya karar verdi.

Nvidia, özelleştirilmiş veri kümeleri, geliştirilmiş ince ayar teknikleri ve son teknoloji yapay zeka donanımını kullanarak Meta’nın standart yapay zeka modelini dünya çapında “en yararlı” modellerden birine dönüştürdü.

Nvidia'nın yeni açık kaynaklı yapay zeka modeli, kıyaslama testlerinde GPT-4o'yu geride bırakıyor

“LLM’leri karşılaştırmak için genellikle sorduğum birkaç kodlama sorusunu sordum ve en iyi yanıtlardan bazılarını bu sorudan aldım. hahaha, Allah kahretsin.

Karşılaştırma

Hangi yapay zeka modelinin “en iyi” olduğunu belirlemeye gelince, net bir metodoloji yok. Örneğin ortam sıcaklığının cıvalı termometreyle ölçülmesinden farklı olarak, yapay zeka modelinin performansı söz konusu olduğunda var olan tek bir “gerçek” yoktur.

Bir analist olarak yapay zeka modellerinin performansını insan değerlendirmesiyle karşılaştırılabilir bir şekilde değerlendirmenin çok önemli olduğunu düşünüyorum. Bunu başarmak için karşılaştırmalı test yöntemleri kullanıyorum.

Yapay zeka alanında araştırmacı olarak yapay zeka modellerini kıyaslama uygulamasıyla ilgileniyorum. Bu süreç, aynı sorgulara, görevlere veya sorunlara sahip birden fazla yapay zeka modelinin sunulmasını ve ardından bunları karşılaştırarak yanıtlarının etkinliğini değerlendirmeyi gerektirir. Yararlı bir sonucu neyin oluşturduğunun belirlenmesi subjektif olabileceğinden, genellikle her makinenin performansına ilişkin kör değerlendirmeler sağlamak için insan değerlendiriciler kullanılır.

Görünüşe göre Nvidia, yeni modelinin performansının şu anda alanda lider olan GPT-4o ve Claude-3 gibi modelleri önemli ölçüde geride bıraktığını öne sürüyor.

Nvidia'nın yeni açık kaynaklı yapay zeka modeli, kıyaslama testlerinde GPT-4o'yu geride bırakıyor

Resimde, Nvidia’nın Llama-3.1-Nemotron-70B-Instruct’unun açıkça görüntülenmediği Chatbot Arena Liderlik Tablolarındaki “Zor” testinin sıralaması gösterilmektedir. Ancak geliştiricilerin bu testte 85 puan aldığı yönündeki iddiası doğruysa bu durumda varsayılan olarak bu kategoride lider model haline gelecektir.

Bu başarıyı çevreleyen entrika, Llama-3.1-70B’nin Meta tarafından geliştirilen orta sınıf açık kaynaklı bir yapay zeka modeli olması gerçeğiyle daha da artabilir. Daha fazla sayıda parametre (özellikle yaklaşık 405 milyar) kullanılarak ince ayar yapılan 405B versiyonu olan Llama-3.1’in önemli ölçüde daha büyük bir çeşidi mevcuttur.

Karşılaştırıldığında, GPT-4o’nun bir trilyonun üzerinde parametreyle geliştirildiği tahmin ediliyor.

2024-10-17 20:21