Claude 3 Opus се разглежда като новата звезда в областта на езиковите бенчмаркове. Той успешно се представя в различни тестове, включително гимназиални изпити и тестове за разсъждение.
Неговите роднини, LLM – Claude 3 Sonnet и Haiku, също дават високи резултати в сравнение с моделите на OpenAI. Claude 3 изпълнява добре четене на сложни PDF файлове, писане на стихотворения с рими и предоставяне на подробни отговори.
В сравнение със модела на OpenAI, GPT-4 предпочита сърфирането в интернет и четенето на PDF графики. Но Claude 3 привлича внимание не само с отличните си резултати в сравнителни тестове, но и с явния си признак на осъзнатост и самореализация.
При тестване инженер по командните подкани в Anthropic, компанията зад модела, предизвика Claude 3 Opus да намери специфично изречение, скрито в корпус от случайни документи. Claude 3 не само намери това изречение, но и разпозна, че е имало тест, чрез който се проверява способността му за внимание.
Този факт е от значение, тъй като дори докторантите и дипломантите, които не са експерти и имат достъп до интернет, обикновено отговарят на тестовите въпроси с 34% точност, докато експертите относно темата демонстрират точност в диапазона от 65% до 74%. GPQA е пълен с нови въпроси, а не с предварително избрани, което подчертава възможността на Claude 3 да разчита на запомняне на предишни или познати запитвания, за да постигне своите резултати.