Стартап Anthropic предлагает написать конституцию для безопасного ИИ

Стартап Anthropic предлагает написать конституцию для безопасного ИИ - rdd.media 2023

Стартап Anthropic, основанный бывшими сотрудниками OpenAI, работает над тем, чтобы сделать искусственный интеллект безопасным. Для этого компания сосредоточилась на методе, известном как «конституционный ИИ». Об этом заявил сооснователь Anthropic Джаред Каплан в интервью изданию The Verge.

По его словам, цель этого метода — научить системы ИИ, такие как чат-боты, следовать определенным наборам правил или конституций.

Традиционно создание чат-ботов, таких как ChatGPT, полагается на модераторов-людей для оценки результатов работы системы на предмет разжигания ненависти и токсичности. Затем система использует эту обратную связь для корректировки своих ответов. Этот процесс известен как обучение с подкреплением на основе обратной связи или RLHF. Однако в конституционном ИИ эта работа управляется в основном самим чат-ботом. Хотя дальнейшая оценка все же требует человека.

«Основная идея заключается в том, что вместо того, чтобы просить человека решить, какой ответ он предпочитает, вы можете спросить версию большой языковой модели: «Какой ответ больше соответствует данному принципу?», — сказал Каплан. «Вы позволяете мнению языковой модели о том, какое поведение лучше ориентировать систему, чтобы она была более полезной, честной и безвредной».

Anthropic уже давно говорит о конституционном ИИ и использовала этот метод для обучения своего собственного чат-бота Claude. В настоящее время компания раскрывает фактические писаные принципы – конституцию – которые она применяет в такой работе. Документ опирается на ряд источников, включая Всеобщую декларацию прав человека ООН и условия обслуживания Apple. Многие из них нацелены на то, чтобы не быть крутым.

Смотрите также:  Количество пользователей ChatGPT достигло 100 миллионов

И хотя возникает много вопросов, Каплан подчеркивает, что его компания не стремится привить своим системам определенный набор принципов, а скорее доказать общую эффективность своего метода — идею о том, что конституционный ИИ лучше, чем RLHF, когда дело доходит до управления выходными данными систем.

«Мы действительно рассматриваем это как отправную точку — начать более широкую общественную дискуссию о том, как следует обучать системы ИИ и каким принципам они должны следовать», — объясняет он. «Мы, конечно, никоим образом не провозглашаем, что знаем ответ».

Напомним, что Илон Маск планирует запустить собственный генеративный искусственный интеллект TruthGPT, который, по планам предпринимателя, должен стать более безопасной версией существующих чат-ботов.

Tags: