Рассвет и закат искусственного интеллекта

Всевозможные модели ИИ не так давно вошли в повседневную жизнь человека. К примеру, всего полгода назад мир узнал о ChatGPT, а сегодня многие ведущие компании либо уже начали использовать технологию генеративного ИИ в своей работе, либо разрабатывают продукты на ее основе.

Содержание

Вместо сердца плазменный мотор Ученые предупредили о коллапсе Причем здесь кот?

Парадокс ситуации заключается в том, что для одних искусственный интеллект и нейросети – это огромные возможности по изменению привычного мира, а для других – инструмент, который может сломаться в любой момент.

Вместо сердца плазменный мотор

Например, британская компания Pulsar Fusion планирует использовать ИИ для разработки сверхбыстрой космической ракеты с термоядерным двигателем, способной достичь Марса всего за 30 дней. Для этого передовые технологии машинного обучения будут изучать физику плазмы в двигателе и помогать оптимизировать его конструкцию для работы в космосе.

Одновременно с этой новостью появилось сообщение в журнале JAMA Neurology, согласно которому нейросеть смогла прочитать электроэнцефалограмму с точностью человека. Ее обучили на 40 тысячах записей ЭЭГ. Статистический анализ показал практически полное соответствие между заключениями экспертов и нейросети. Показательно, что ИИ точнее находил аномалии, чем три ранее выпущенные модели.

Ученые предупредили о коллапсе

Между тем эксперты все более критично относятся к идее дальнейшего развития искусственного интеллекта, и прежде всего генеративного ИИ. Проблема, по их мнению, состоит в том, что до сих пор GPT, Stable Diffusion или Midjourney использовали книги, статьи, фотографии, созданные человеком.

С ростом числа ИИ появится все больше контента, сгенерированного машинами, и группа ученых из Великобритании и Канады задались вопросом, а что произойдет, когда генеративные модели станут обучаться на материалах, созданных ИИ? Ответ оказался неожиданным – ИИ неизбежно ждет вырождение.

Мы обнаружили, что использование сгенерированного моделями контента в обучении приведет к необратимым дефектам уже в будущем поколении моделей,
говорится в журнале arXiv.

Сосредоточившись на проблеме распределения вероятностей в генеративных моделях типа «текст в текст» и «изображение в изображение», авторы статьи пришли к выводу, что «обучение на основе данных, созданных другими моделями, вызовет коллапс моделей – процесс вырождения, при котором со временем модели забудут настоящее распределение данных. Этот процесс неизбежен даже в случаях с почти идеальными условиями для долгосрочного обучения».

Иначе говоря, постепенно ошибки в моделях будут накапливаться, и они станут воспринимать реальность все менее адекватно. Поразительно, но коллапс моделей наблюдался довольно быстро. Они действительно могут за относительно короткое время забыть большинство оригинальных данных, на которых обучались в самом начале.

Причем здесь кот?

Проблема в том, что, когда учебная модель ИИ получает больше сгенерированных ИИ данных, она становится постепенно все менее эффективной, совершает больше ошибок в ответах и создаваемом контенте, ее реакции теряют вариативность.

Эксперты иллюстрируют проблему гипотетическим сценарием, в котором модель была обучена на наборе данных из 100 котов – десять из них были с голубой шерстью, 90 – с желтой. Модель понимает, что желтые коты встречаются чаще, но также представляет голубых котов более желтоватыми, выдавая иногда результаты с зелеными котами, когда ее просят создать новые данные.

Со временем оригинальная черта – голубой мех – «выветривается» в повторяющихся циклах, от голубого к зеленому, от зеленого к желтому. Это постепенное растворение и потеря минорных характеристик и есть коллапс модели. Чтобы предотвратить его, важно удостовериться в правильном распределении минорных групп в наборах данных, которые изображали бы отличительные черты верно с точек зрения количества и точности. Трудная задача, поскольку моделям сложно учиться на редких событиях.

Мы собираемся наполнить интернет чушью. Это затруднит обучение новых моделей путем прочесывания интернета. Фирмы, которые уже сделали это, или которые контролируют крупномасштабный доступ к пользовательским интерфейсам, будут иметь преимущество,
заявил один из авторов исследования Росс Андерсон

Авторы предлагают пару решений этой проблемы. Они, правда, потребуют механизма массовой маркировки и серьезных усилий со стороны производителей контента или ИИ-компаний по дифференциации материалов, созданных человеком и машиной. В настоящее время, к сожалению, так никто не делает. Разве что в Китае настаивают на принятии закона, определяющего авторство цифрового контента. Законодатели требуют маркировать текст или изображение, если они созданы нейросетями.

Ярослав Литвинов