Gopher — новая система искусственного интеллекта от DeepMind, оперирующая 280 миллиардами параметров

LLM-модель

Генерация текстов на естественном языке это задача, для которой используются так называемые большие языковые модели (large language model, LLM). Результаты работы таких моделей применяются сейчас на практике в самых различных областях, начиная от поиска Google до фэнтезийных онлайн-игр. Однако работа LLM-моделей еще далека от совершенства, при некоторых условиях они «сходят с ума» и начинают выдавать тексты сексисткого, расистского содержания, тексты с прерывающимися цепочками логических рассуждений и т.п. Некоторые из специалистов считают, что эти слабые места могут быть усилены путем добавления вычислительной мощности, увеличения масштабов самой модели и количества исходных данных. Но так ли это на самом деле? Или мы уже достигли пределов возможностей данной технологии?

Поиском ответов на прозвучавшие выше вопросы занимаются специалисты DeepMind, подразделения компании Alphabet, занимающегося проблемами искусственного интеллекта. Для этого была построена большая языковая модель под названием Gopher, количество операционных параметров которой равно 280 миллиардам. С этой точки зрения модель Gopher превосходит модель OpenAI GPT-3 (175 миллиардов параметров), но проигрывает модели Megatron (530 миллиардов параметров), разработанной совместными усилиями Microsoft и Nvidia.

В области искусственного интеллекта бытует мнение, что модели большей сложности могут обеспечить лучшую производительность и качество результатов. Специалисты DeepMind подтвердили это при помощи модели Gopher на наиболее распространенных задачах, таких как проверки фактов, анализ мнений и резюмирование. Однако было замечено, что некоторые проблемы, являющиеся врожденными в языковых моделях, для их исправления нуждаются в чем-то большем, нежели простое увеличение сложности, вычислительной мощности и количества данных.

«Мы видим, что модель может потерпеть неудачу, двигаясь к моменту краха множеством различных путей» — пишут исследователи, — «Это происходит потому, что у самой модели отсутствует хорошее понимание того, что она читает и вырабатывает. Более того, в некоторых случаях модели имеют тенденцию скатываться к распространенных стереотипам и выдают весьма хорошо замаскированную правдоподобную дезинформацию».

К озвученным выше выводам специалисты DeepMind пришли после того, как они изменяли сложность модели Gopher и проводили порядка 150 тестов на различных языковых задачах. При этом было отмечено, что качество работы увеличивалось с ростом сложности модели, и самые качественные результаты (около 80 процентов прохождения тестов) были получены при помощи модели с максимально возможным количеством параметров.

Кроме проверки качества работы LLM-моделей, исследователи в своей работе рассмотрели дополнительные проблемы, с которыми можно будет столкнуться при начале практического использования этих моделей. Были рассмотрены варианты генерации «токсичного» языка, хорошо скрытой дезинформации и другие вещи, которые могут быть использованы для создания спама и пропаганды, к примеру. Эти аспекты скоро обретут весьма важное значение, ведь различные системы искусственного интеллекта уже сейчас начинают использоваться в роли чат-ботов, агентов по продажам и т.п.

«Несмотря на не очень утешительные результаты наших исследований мы считаем, что использованные тестовые наборы данных и тестовые задания просто не соответствуют сложности реального мира» — пишут исследователи, — «И единственным способом проверки качества таких систем является проверка их в реальности, в общении с реальными людьми. С учетом темпа развития современных технологий мы надеемся получить результаты проверок моделей реальностью уже в самом ближайшем времени».

Share Button

Материалы по теме:

Fujifilm и IBM создали новую магнитную ленту, демонстрирующую рекордные показатели плотности записи и информационной емкости
Ни для кого не является секретом, что все цифровые данные, которые за всю историю успело сгенерировать человечество, где-то сохранены и ждут момента, когда они ...
Создана система искусственного интеллекта, способная решить основную задачу области квантовой химии
Исследователи из Берлинского Свободного университета (Freie Universitat Berlin) разработали новую систему искусственного интеллекта, способную вычислять так называемое стандартное состояние уравнения Шредингера. Такой вид уравнения ...
В Китае начата разработка суперкомпьютера, основанного на явлении сверхпроводимости, который будет в 1000 раз эффективней обычных систем
В настоящее время в Китае начат проект, на который планируется потратить 1 миллиард юаней (145.4 миллиона американских долларов), целью которого является создание нового суперкомпьютера, ...
Австралийские ученые создали самый быстрый в мире оптический нейроморфный процессор
Международная группа, возглавляемая учеными из Технологического университета Свинбурна (Swinburne University of Technology) недавно провела демонстрацию, ключевым компонентом которой стал новый, самый быстрый и самый ...
800 гигабит в секунду — новый рекорд скорости передачи данных по сегменту реальной оптоволоконной сети
Не так давно специалисты компании Infinera, производителя оборудования для оптоволоконных коммуникационных сетей, и компании Windstream, поставщика информационных услуг, провели испытания, в ходе которых была ...
You can skip to the end and leave a response. Pinging is currently not allowed.

Leave a Reply

Яндекс.Метрика