Categories: Технологии

Рассвет и закат искусственного интеллекта

Всевозможные модели ИИ не так давно вошли в повседневную жизнь человека. К примеру, всего полгода назад мир узнал о ChatGPT, а сегодня многие ведущие компании либо уже начали использовать технологию генеративного ИИ в своей работе, либо разрабатывают продукты на ее основе.

Парадокс ситуации заключается в том, что для одних искусственный интеллект и нейросети – это огромные возможности по изменению привычного мира, а для других – инструмент, который может сломаться в любой момент.

Вместо сердца плазменный мотор

Например, британская компания Pulsar Fusion планирует использовать ИИ для разработки сверхбыстрой космической ракеты с термоядерным двигателем, способной достичь Марса всего за 30 дней. Для этого передовые технологии машинного обучения будут изучать физику плазмы в двигателе и помогать оптимизировать его конструкцию для работы в космосе.

Одновременно с этой новостью появилось сообщение в журнале JAMA Neurology, согласно которому нейросеть смогла прочитать электроэнцефалограмму с точностью человека. Ее обучили на 40 тысячах записей ЭЭГ. Статистический анализ показал практически полное соответствие между заключениями экспертов и нейросети. Показательно, что ИИ точнее находил аномалии, чем три ранее выпущенные модели.

Ученые предупредили о коллапсе

Между тем эксперты все более критично относятся к идее дальнейшего развития искусственного интеллекта, и прежде всего генеративного ИИ. Проблема, по их мнению, состоит в том, что до сих пор GPT, Stable Diffusion или Midjourney использовали книги, статьи, фотографии, созданные человеком.

С ростом числа ИИ появится все больше контента, сгенерированного машинами, и группа ученых из Великобритании и Канады задались вопросом, а что произойдет, когда генеративные модели станут обучаться на материалах, созданных ИИ? Ответ оказался неожиданным – ИИ неизбежно ждет вырождение.

Мы обнаружили, что использование сгенерированного моделями контента в обучении приведет к необратимым дефектам уже в будущем поколении моделей,

говорится в журнале arXiv.

Сосредоточившись на проблеме распределения вероятностей в генеративных моделях типа «текст в текст» и «изображение в изображение», авторы статьи пришли к выводу, что «обучение на основе данных, созданных другими моделями, вызовет коллапс моделей – процесс вырождения, при котором со временем модели забудут настоящее распределение данных. Этот процесс неизбежен даже в случаях с почти идеальными условиями для долгосрочного обучения».

Иначе говоря, постепенно ошибки в моделях будут накапливаться, и они станут воспринимать реальность все менее адекватно. Поразительно, но коллапс моделей наблюдался довольно быстро. Они действительно могут за относительно короткое время забыть большинство оригинальных данных, на которых обучались в самом начале.

Причем здесь кот?

Проблема в том, что, когда учебная модель ИИ получает больше сгенерированных ИИ данных, она становится постепенно все менее эффективной, совершает больше ошибок в ответах и создаваемом контенте, ее реакции теряют вариативность.

Эксперты иллюстрируют проблему гипотетическим сценарием, в котором модель была обучена на наборе данных из 100 котов – десять из них были с голубой шерстью, 90 – с желтой. Модель понимает, что желтые коты встречаются чаще, но также представляет голубых котов более желтоватыми, выдавая иногда результаты с зелеными котами, когда ее просят создать новые данные.

Со временем оригинальная черта – голубой мех – «выветривается» в повторяющихся циклах, от голубого к зеленому, от зеленого к желтому. Это постепенное растворение и потеря минорных характеристик и есть коллапс модели. Чтобы предотвратить его, важно удостовериться в правильном распределении минорных групп в наборах данных, которые изображали бы отличительные черты верно с точек зрения количества и точности. Трудная задача, поскольку моделям сложно учиться на редких событиях.

Мы собираемся наполнить интернет чушью. Это затруднит обучение новых моделей путем прочесывания интернета. Фирмы, которые уже сделали это, или которые контролируют крупномасштабный доступ к пользовательским интерфейсам, будут иметь преимущество,

заявил один из авторов исследования Росс Андерсон

Авторы предлагают пару решений этой проблемы. Они, правда, потребуют механизма массовой маркировки и серьезных усилий со стороны производителей контента или ИИ-компаний по дифференциации материалов, созданных человеком и машиной. В настоящее время, к сожалению, так никто не делает. Разве что в Китае настаивают на принятии закона, определяющего авторство цифрового контента. Законодатели требуют маркировать текст или изображение, если они созданы нейросетями.

Ярослав Литвинов

Recent Posts

В Астане запускают LRT

В Астана в ближайшие выходные, 16–17 мая, официально запустят систему легкорельсового транспорта LRT. Об этом…

6 часов ago

Полтонны мефедрона нашли в подпольной нарколаборатории в Арыси (видео)

В городе Арысь сотрудники МВД ликвидировали крупную подпольную нарколабораторию по производству синтетических наркотиков. Операция прошла…

6 часов ago

Рыбакина разгромила экс-первую ракетку мира на топ-турнире в Италии (видео)

В Риме проходит турнир категории WTA 1000 и АТР Masters 1000 Internazionali BNL d'Italia. В…

16 часов ago

Премьер Венгрии пригласил Касым-Жомарта Токаева на юбилей революции

На имя Президента Казахстана поступило ответное послание Премьер-министра Венгрии Петер Мадьяр поблагодарил Касым-Жомарта Токаева за…

18 часов ago

Касым-Жомарт Токаев обсудил с главой МИД Бразилии реформирование ООН, ядерную безопасность, энергетику и ИИ

Глава государства принял министра иностранных дел Бразилии Мауро Виейру, сообщает пресс-служба Акорды. Касым-Жомарт Токаев подчеркнул,…

18 часов ago

Airbus A321 Air Astana сел в Актобе после отказа двигателя

Министерство транспорта Казахстана начало расследование инцидента с рейсом Астана — Франкфурт авиакомпании Air Astana, сообщила…

4 дня ago