Новости ИТ и AI
Google Релизы

Gemini от Google DeepMind: Новый этап в эволюции ИИ, превосходящий GPT-4 или нет

Google DeepMind представила новую модель ИИ Gemini, вызвав большой интерес в мире технологий. Она соревнуется с GPT-4 от OpenAI, превосходя его по большинству показателей, хотя и незначительно.

Gemini — это мультимодальная система, способная работать с текстом, изображениями и аудио. Она может, например, анализировать и обновлять данные на диаграммах или определять готовность омлета по фотографии. Это значительный шаг для Google, но эксперты задаются вопросом, достигли ли мы пика развития и внимания к ИИ. Gemini пока доступна в ограниченном виде и будет развиваться в ближайшие месяцы.
Больше, лучше, быстрее, сильнее?

Самая мощная модель OpenAI, GPT-4, считается золотым стандартом в отрасли. Хотя Google похвасталась, что Gemini превосходит предыдущую модель OpenAI, GPT 3.5, руководители компании уклонились от ответов на вопросы о том, насколько модель превосходит GPT-4.

Но компания особо выделяет один бенчмарк под названием MMLU (massive multitask language understanding). Это набор тестов, предназначенных для измерения производительности моделей в заданиях с текстом и изображениями, включая понимание прочитанного, математику в колледже и викторины с несколькими вариантами ответов по физике, экономике и социальным наукам. По словам Пичаи, в вопросах, содержащих только текст, Gemini набирает 90%, а эксперты-люди — около 89%. GPT-4 набирает 86% по этим типам вопросов. В мультимодальных вопросах Gemini набирает 59%, а GPT-4 — 57%. «Это первая модель, которая преодолела этот порог», — говорит Пичаи.

По словам Мелани Митчелл, исследователя искусственного интеллекта из Института Санта-Фе в Нью-Мексико, результаты Gemini в сравнении с эталонными наборами данных очень впечатляют.

«Очевидно, что Gemini — очень сложная система искусственного интеллекта», — говорит Митчелл. Но «для меня не очевидно, что Gemini на самом деле существенно способнее GPT-4», — добавляет она.

Хотя у модели хорошие показатели, трудно сказать, как интерпретировать эти цифры, учитывая, что мы не знаем, что содержится в обучающих данных, говорит Перси Лян, директор Стэнфордского центра исследований базовых моделей.

Митчелл также отмечает, что Gemini гораздо лучше справляется с языковыми и кодовыми задачами, чем с изображениями и видео. «Мультимодальным моделям основы еще предстоит пройти долгий путь, чтобы стать общепринятыми и надежными для многих задач», — говорит она.

Используя отзывы людей-тестировщиков, Google DeepMind обучил Gemini быть более точным в фактах, указывать авторство, когда его об этом просят, и хеджировать, а не выплескивать бессмыслицу, когда сталкивается с вопросом, на который не может ответить. Компания утверждает, что это смягчает проблему галлюцинаций. Но без радикального пересмотра базовой технологии большие языковые модели будут продолжать «галлюцинировать» (выдумывать).

Эксперты говорят, что неясно, дают ли эталоны, которые Google использует для оценки производительности Gemini, такую глубокую информацию, а без прозрачности трудно проверить заявления Google.

Google рекламирует Gemini как «машину для всего» — модель общего назначения, которую можно использовать по-разному, — говорит Эмили Бендер, профессор вычислительной лингвистики в Университете Вашингтона. Но компания использует узкие эталоны для оценки моделей, которые, как она ожидает, будут использоваться для этих разнообразных целей. «Это означает, что они не могут быть тщательно оценены», — говорит она.

В конечном итоге для рядового пользователя улучшение по сравнению с конкурирующими моделями может не иметь большого значения, считает Шах. «Речь идет скорее об удобстве, узнаваемости бренда, существующей интеграции, а не о том, что люди действительно думают «О, это лучше», — говорит он.
Долгое становление
«Google очень осторожно относилась к выпуску этих материалов для широкой публики», — сказал Джеффри Хинтон в апреле, покидая компанию, в интервью MIT Technology Review. «Слишком много плохого может случиться, и Google не хотел портить свою репутацию». Столкнувшись с технологией, которая казалась ненадежной или не имеющей сбыта, Google играла в безопасности — до тех пор, пока больший риск не стал упущенным.

Google на собственном опыте убедилась, что запуск некачественных продуктов может привести к обратным последствиям. Когда в феврале компания представила своего конкурента ChatGPT, компанию Bard, ученые вскоре заметили фактическую ошибку в рекламе чатбота, что впоследствии привело к снижению стоимости акций компании на 100 миллиардов долларов.

В мае Google объявила, что внедряет генеративный ИИ в большинство своих продуктов, от электронной почты до программного обеспечения для повышения производительности. Но результаты не впечатлили критиков: например, чатбот делал ссылки на несуществующие электронные письма.

Это постоянная проблема больших языковых моделей. Несмотря на то что генеративные системы ИИ отлично справляются с созданием текста, похожего на то, что мог бы написать человек, они регулярно что-то выдумывают. И это не единственная их проблема. Их также легко взломать, и в них много погрешностей. Кроме того, их использование сильно загрязняет окружающую среду.

Google не решила ни эти проблемы, ни проблему галлюцинаций. Решение последней проблемы — инструмент, который позволяет людям использовать поиск Google для перепроверки ответов чатбота, но при этом полагается на точность самих результатов онлайн-поиска.

Gemini может стать вершиной этой волны генеративного ИИ. Но пока неясно, куда дальше двинется ИИ, построенный на больших языковых моделях. Некоторые исследователи считают, что это может быть плато, а не подножие следующего пика.

Пичаи не теряет надежды. «Если смотреть вперед, то мы видим большой простор для развития», — говорит он. «Я думаю, что мультимодальность будет иметь большое значение. По мере того как мы будем учить эти модели больше рассуждать, будут происходить все большие и большие прорывы». Глубокие прорывы еще впереди".

«Когда я воспринимаю все это в целом, мне кажется, что мы находимся в самом начале пути».
UPD: Google признала, что демонстрационное видео своей модели Gemini, предназначенной конкурировать с GPT-4, было постановочным. В статье Bloomberg указывается, что в ролике «Знакомство с Gemini: взаимодействие с мультимодальным ИИ» использовались не только ускоренные записи, но и сценарий вместо реального голосового взаимодействия пользователя с ИИ. Настоящее демо было создано с применением статичных кадров и текстовых подсказок, а не реакцией Gemini в реальном времени, что вызывает сомнения в готовности и функциональности модели.
Made on
Tilda