Агентът на Windows Arena е новият бенчмарк за генеративния ИИ от Microsoft.

Специалисти използваха различни приложения и функции на Windows, за да тестват изкуствения интелект. Тестването включваше уеб браузъри, операционна система, приложения за кодиране, както и други инсталирани приложения като Notepad, Clock и Paint, както и гледане на видеоклипове с VLC Player. Изследователи поискаха от изкуствения интелект да изпълнява задачи, като например превръщане на уебсайт в PDF файл и поставяне на работния плот. Специалистите откриха, че изкуственият интелект Navi има успеваемост от 19.5%, което е ниско в сравнение с човешкото изпълнение от 74.5%.

Бенчмаркът на Windows Agent Arena би могъл да доведе до огромно развитие в създаването на по-добри изкуствени агенти. Екип от Microsoft работи по проекта заедно с изследователи от университетите “Карнеги Мелън” и Колумбийски университет, за да подобри резултатите на изкуствения интелект и да го направи по-близък до човешкия стандарт.

Leave a Reply Cancel reply