OpenAI планирует инвестировать значительные средства и создать новую исследовательскую группу, которая будет стремиться обеспечить безопасность искусственного интеллекта для человека, в конечном итоге используя ИИ для самоконтроля.
«Огромная мощь сверхинтеллекта может … привести к бесправию человечества или даже к его вымиранию», — пишут в своем блоге соучредитель OpenAI Илья Суцкевер и руководитель отдела согласования Ян Лейке. «В настоящее время у нас нет решения для управления или контроля над потенциально сверх-интеллектуальным ИИ и предотвращения его выхода из-под контроля».
По прогнозам авторов блога, сверхинтеллектуальный ИИ (или сверхразум, AGI — система, более интеллектуальная, чем человек) может появиться уже в этом десятилетии. Для управления AGI людям понадобятся более совершенные методы, чем те, которые существуют в настоящее время, поэтому необходимы прорывы в так называемых «исследованиях согласования», которые направлены на то, чтобы ИИ оставался полезным для человека, считают авторы.
OpenAI, поддерживаемая Microsoft (NASDAQ:MSFT), выделяет на решение этой проблемы 20% вычислительных мощностей, которые она обеспечит в течение следующих четырех лет, пишут авторы. Кроме того, компания формирует новую команду, которая будет организована вокруг этой задачи, под названием Superalignment team.
OpenAI, поддерживаемая Microsoft (NASDAQ:MSFT), выделяет на решение этой проблемы 20% вычислительных мощностей, которые она обеспечит в течение следующих четырех лет, пишут авторы. Кроме того, компания формирует новую команду, которая будет организована вокруг этой задачи, под названием Superalignment team.
Цель команды:
Cоздать «автоматизированного исследователя» по выравниванию ИИ на уровне, близком к человеческому. Затем можно будеть использовать огромные вычислительные мощности для масштабирования усилий и итеративного выравнивания сверхинтеллекта.
Для выравнивания первого «автоматизированного исследователя» по выравниванию команда планирует:
Это означает, что они будут обучать системы ИИ, используя обратную связь от людей, обучать системы ИИ ассистировать человеческой оценке, а затем, наконец, обучать системы ИИ, чтобы они действительно проводили исследования «выравнивания».
Защитник безопасности ИИ Коннор Лихи заявил, что этот план в корне не верен, поскольку первоначальный ИИ на уровне человека может начать сеять хаос, прежде чем его удастся заставить решать проблемы безопасности ИИ.
«Вы должны решить проблему выравнивания до создания интеллекта человеческого уровня, иначе по умолчанию вы не сможете его контролировать», — сказал он в интервью. «Я лично не думаю, что это особенно хороший или безопасный план».
О потенциальных опасностях ИИ уже давно говорят как исследователи ИИ, так и широкая общественность. В апреле группа лидеров индустрии ИИ и экспертов подписала открытое письмо с призывом взять полугодовую паузу в разработке систем, более мощных, чем GPT-4 от OpenAI, ссылаясь на потенциальные риски для общества. Опрос Reuters/Ipsos, проведенный в мае, показал, что более двух третей американцев обеспокоены возможным негативным влиянием ИИ, а 61% считают, что он может угрожать цивилизации.
Cоздать «автоматизированного исследователя» по выравниванию ИИ на уровне, близком к человеческому. Затем можно будеть использовать огромные вычислительные мощности для масштабирования усилий и итеративного выравнивания сверхинтеллекта.
Для выравнивания первого «автоматизированного исследователя» по выравниванию команда планирует:
- Разработать масштабируемый метод обучения
- Проверить получившуюся модель
- Протестировать всю систему по выравниванию на прочность: Чтобы обеспечить обучающий сигнал на задачах, которые сложно оценить человечески, можно использовать системы ИИ для оценки других систем ИИ (масштабируемый контроль). Кроме того, важно понимать и контролировать, как модель обобщается и применяется на задачах, на которые команда не может оказывать влияние (обобщение). Для проверки выравнивания систем планируется автоматизировать поиск проблемного поведения (устойчивости) и внутренних проблем (автоматизированной интерпретируемости). После чего можно протестировать всю систему, намеренно обучив смещенные модели, и подтвердить, что методы обнаруживают наихудшие виды смещений (адверсарное тестирование).
Это означает, что они будут обучать системы ИИ, используя обратную связь от людей, обучать системы ИИ ассистировать человеческой оценке, а затем, наконец, обучать системы ИИ, чтобы они действительно проводили исследования «выравнивания».
Защитник безопасности ИИ Коннор Лихи заявил, что этот план в корне не верен, поскольку первоначальный ИИ на уровне человека может начать сеять хаос, прежде чем его удастся заставить решать проблемы безопасности ИИ.
«Вы должны решить проблему выравнивания до создания интеллекта человеческого уровня, иначе по умолчанию вы не сможете его контролировать», — сказал он в интервью. «Я лично не думаю, что это особенно хороший или безопасный план».
О потенциальных опасностях ИИ уже давно говорят как исследователи ИИ, так и широкая общественность. В апреле группа лидеров индустрии ИИ и экспертов подписала открытое письмо с призывом взять полугодовую паузу в разработке систем, более мощных, чем GPT-4 от OpenAI, ссылаясь на потенциальные риски для общества. Опрос Reuters/Ipsos, проведенный в мае, показал, что более двух третей американцев обеспокоены возможным негативным влиянием ИИ, а 61% считают, что он может угрожать цивилизации.
