شکست خوردن ChatGPT-4 از Claude 3 Opus در رتبه بندی
آنتروپیک اوایل این ماه خانواده مدلهای کلود 3 را معرفی کرد و ادعا کرد که میتواند از GPT-4 OpenAI بهتر عمل کند. این شرکت معیارهای عملکرد مدل های مختلفی را نشان داد و آنها را با چت ربات های رقیب مقایسه کرد تا به این نتیجه برسد. تسلط Cloud 3 اکنون در رتبه بندی Arena منعکس شده است.
Claude 3 Opus در رتبه بندی LYMSYS Chatbot Arena در صدر قرار گرفت و مدل GPT-4 را در جایگاه دوم قرار داد. Claude 3 Opus به امتیاز Elo بیش از 1253 دست یافت که کمی بالاتر از چت بات GPT-4 1251 است. این امتیازی است که سطح مهارت شطرنج بازان را ارزیابی می کند. اما در این مورد، نتایج بنچمارک مدلهای مختلف هوش مصنوعی را ارزیابی میکنند، نه شطرنجبازان.
با این حال، LYMSYS Chatbot Arena کامل نیست. نتایج معیاری است که نشان می دهد بر اساس آرای مردم است. بنابراین نتایج پس از 70000 رای جدید به روز شد. بنابراین، در تئوری، نمره بهتر باید نشان دهنده بهتر بودن نمره کلی مدل هوش مصنوعی باشد. اما بارها خوب بودن نتیجه بستگی به این دارد که چه کسی به آن نگاه می کند. کاربران همچنین شکایت دارند که GPT-4 به درستی در Chatbot Arena بارگیری نمی شود. با این حال، OpenAI در تمام این سالها رتبه اول را حفظ کرد تا اینکه چند ساعت پیش توسط Cloud 3 Opus سقوط کرد.
در حالی که رتبهبندی بهروزرسانی شده Arena احتمالاً علاقه بیشتری به مدلهای هوش مصنوعی Anthropic ایجاد میکند، OpenAI برنامههایی برای انتشار GPT-5 در تابستان امسال دارد، که میگوید «بهطور قابلتوجهی بهتر است». در این صورت، OpenAI احتمالاً جایگاه اول را در جدول امتیازات Arena به دست خواهد آورد.
باید دید که آیا Cloud 3 Opus می تواند به عملکرد بهتر از GPT-4 ادامه دهد یا اینکه به زودی از بین خواهد رفت و محصول OpenAI موفق خواهد شد.