شکست خوردن ChatGPT-4 از Claude 3 Opus در رتبه بندی

فائزه ملک پورمارس 28, 2024

0 خواندن این مطلب 1 دقیقه زمان میبرد

آنتروپیک اوایل این ماه خانواده مدل‌های کلود 3 را معرفی کرد و ادعا کرد که می‌تواند از GPT-4 OpenAI بهتر عمل کند. این شرکت معیارهای عملکرد مدل های مختلفی را نشان داد و آنها را با چت ربات های رقیب مقایسه کرد تا به این نتیجه برسد. تسلط Cloud 3 اکنون در رتبه بندی Arena منعکس شده است.

Claude 3 Opus در رتبه بندی LYMSYS Chatbot Arena در صدر قرار گرفت و مدل GPT-4 را در جایگاه دوم قرار داد. Claude 3 Opus به امتیاز Elo بیش از 1253 دست یافت که کمی بالاتر از چت بات GPT-4 1251 است. این امتیازی است که سطح مهارت شطرنج بازان را ارزیابی می کند. اما در این مورد، نتایج بنچمارک مدل‌های مختلف هوش مصنوعی را ارزیابی می‌کنند، نه شطرنج‌بازان.

با این حال، LYMSYS Chatbot Arena کامل نیست. نتایج معیاری است که نشان می دهد بر اساس آرای مردم است. بنابراین نتایج پس از 70000 رای جدید به روز شد. بنابراین، در تئوری، نمره بهتر باید نشان دهنده بهتر بودن نمره کلی مدل هوش مصنوعی باشد. اما بارها خوب بودن نتیجه بستگی به این دارد که چه کسی به آن نگاه می کند. کاربران همچنین شکایت دارند که GPT-4 به درستی در Chatbot Arena بارگیری نمی شود. با این حال، OpenAI در تمام این سال‌ها رتبه اول را حفظ کرد تا اینکه چند ساعت پیش توسط Cloud 3 Opus سقوط کرد.

در حالی که رتبه‌بندی به‌روزرسانی شده Arena احتمالاً علاقه بیشتری به مدل‌های هوش مصنوعی Anthropic ایجاد می‌کند، OpenAI برنامه‌هایی برای انتشار GPT-5 در تابستان امسال دارد، که می‌گوید «به‌طور قابل‌توجهی بهتر است». در این صورت، OpenAI احتمالاً جایگاه اول را در جدول امتیازات Arena به دست خواهد آورد.

باید دید که آیا Cloud 3 Opus می تواند به عملکرد بهتر از GPT-4 ادامه دهد یا اینکه به زودی از بین خواهد رفت و محصول OpenAI موفق خواهد شد.

فائزه ملک پورمارس 28, 2024

0 خواندن این مطلب 1 دقیقه زمان میبرد