В проучването, публикувано в PLOS Digital Health, изследователите са тествали LLM, неговия предшественик GPT-3.5, PaLM 2 на Google и LLaMA на Meta с 87 въпроса с множествен избор. Петима експерти офталмолози, трима стажант-офталмолози и двама неспециализирани младши лекари получиха един и същ имитационен изпит. Въпросите бяха от учебник за изпитване на стажанти по всички въпроси – от чувствителност към светлина до лезии. Съдържанието му не е публично достъпно, затова изследователите смятат, че нито един LLM не е могъл да бъде обучаван по тях преди това.
На ChatGPT, оборудван с GPT-4 или GPT-3.5, са били дадени три възможности да отговори окончателно или отговорът му е бил отбелязан като нулев. Това е значително повече от средния брой верни отговори на младшите лекари – 37, но само с малко изпреварва средния брой отговори на тримата стажанти – 59.7. Докато един експерт офталмолог отговорил правилно само на 56 въпроса, петимата имали среден резултат от 66.4 верни отговора, с което изпреварили машината. PaLM 2 получи 49 точки, а GPT-3.5 – 42 точки.
LLaMa получи най-нисък резултат от 28 точки, като се оказа под нивото на младшите лекари. Забележително е, че тези изпитания са проведени в средата на 2023 г.
LLM също така са склонни да “халюцинират” или да си измислят. Това е едно, ако е несъществен факт, но да твърдиш, че има катаракта или рак, е друга история. Както е в много случаи на използване на LLM, в системите също липсват нюанси, което създава допълнителни възможности за неточности.