Categories: Технологии

Рассвет и закат искусственного интеллекта

Всевозможные модели ИИ не так давно вошли в повседневную жизнь человека. К примеру, всего полгода назад мир узнал о ChatGPT, а сегодня многие ведущие компании либо уже начали использовать технологию генеративного ИИ в своей работе, либо разрабатывают продукты на ее основе.

Парадокс ситуации заключается в том, что для одних искусственный интеллект и нейросети – это огромные возможности по изменению привычного мира, а для других – инструмент, который может сломаться в любой момент.

Вместо сердца плазменный мотор

Например, британская компания Pulsar Fusion планирует использовать ИИ для разработки сверхбыстрой космической ракеты с термоядерным двигателем, способной достичь Марса всего за 30 дней. Для этого передовые технологии машинного обучения будут изучать физику плазмы в двигателе и помогать оптимизировать его конструкцию для работы в космосе.

Одновременно с этой новостью появилось сообщение в журнале JAMA Neurology, согласно которому нейросеть смогла прочитать электроэнцефалограмму с точностью человека. Ее обучили на 40 тысячах записей ЭЭГ. Статистический анализ показал практически полное соответствие между заключениями экспертов и нейросети. Показательно, что ИИ точнее находил аномалии, чем три ранее выпущенные модели.

Ученые предупредили о коллапсе

Между тем эксперты все более критично относятся к идее дальнейшего развития искусственного интеллекта, и прежде всего генеративного ИИ. Проблема, по их мнению, состоит в том, что до сих пор GPT, Stable Diffusion или Midjourney использовали книги, статьи, фотографии, созданные человеком.

С ростом числа ИИ появится все больше контента, сгенерированного машинами, и группа ученых из Великобритании и Канады задались вопросом, а что произойдет, когда генеративные модели станут обучаться на материалах, созданных ИИ? Ответ оказался неожиданным – ИИ неизбежно ждет вырождение.

Мы обнаружили, что использование сгенерированного моделями контента в обучении приведет к необратимым дефектам уже в будущем поколении моделей,

говорится в журнале arXiv.

Сосредоточившись на проблеме распределения вероятностей в генеративных моделях типа «текст в текст» и «изображение в изображение», авторы статьи пришли к выводу, что «обучение на основе данных, созданных другими моделями, вызовет коллапс моделей – процесс вырождения, при котором со временем модели забудут настоящее распределение данных. Этот процесс неизбежен даже в случаях с почти идеальными условиями для долгосрочного обучения».

Иначе говоря, постепенно ошибки в моделях будут накапливаться, и они станут воспринимать реальность все менее адекватно. Поразительно, но коллапс моделей наблюдался довольно быстро. Они действительно могут за относительно короткое время забыть большинство оригинальных данных, на которых обучались в самом начале.

Причем здесь кот?

Проблема в том, что, когда учебная модель ИИ получает больше сгенерированных ИИ данных, она становится постепенно все менее эффективной, совершает больше ошибок в ответах и создаваемом контенте, ее реакции теряют вариативность.

Эксперты иллюстрируют проблему гипотетическим сценарием, в котором модель была обучена на наборе данных из 100 котов – десять из них были с голубой шерстью, 90 – с желтой. Модель понимает, что желтые коты встречаются чаще, но также представляет голубых котов более желтоватыми, выдавая иногда результаты с зелеными котами, когда ее просят создать новые данные.

Со временем оригинальная черта – голубой мех – «выветривается» в повторяющихся циклах, от голубого к зеленому, от зеленого к желтому. Это постепенное растворение и потеря минорных характеристик и есть коллапс модели. Чтобы предотвратить его, важно удостовериться в правильном распределении минорных групп в наборах данных, которые изображали бы отличительные черты верно с точек зрения количества и точности. Трудная задача, поскольку моделям сложно учиться на редких событиях.

Мы собираемся наполнить интернет чушью. Это затруднит обучение новых моделей путем прочесывания интернета. Фирмы, которые уже сделали это, или которые контролируют крупномасштабный доступ к пользовательским интерфейсам, будут иметь преимущество,

заявил один из авторов исследования Росс Андерсон

Авторы предлагают пару решений этой проблемы. Они, правда, потребуют механизма массовой маркировки и серьезных усилий со стороны производителей контента или ИИ-компаний по дифференциации материалов, созданных человеком и машиной. В настоящее время, к сожалению, так никто не делает. Разве что в Китае настаивают на принятии закона, определяющего авторство цифрового контента. Законодатели требуют маркировать текст или изображение, если они созданы нейросетями.

Ярослав Литвинов

Recent Posts

В Туркестанской области мужчина избил отца

Полиция Туркестанской области задержала мужчину, подозреваемого в жестоком избиении своего пожилого отца. Как сообщили в…

6 часов ago

Отборочный турнир Чемпионата мира-2026. Бельгия – Казахстан (видео)

Сборная Казахстана потерпела разгромное поражение в Брюсселе Бельгия — Казахстан 6:0 (2:0) Голы: Де Брейне…

12 часов ago

В Казахстане изъята крупнейшая в истории страны партия кокаина

Комитет национальной безопасности провёл масштабную спецоперацию, в результате которой был ликвидирован международный канал контрабанды наркотиков,…

3 дня ago

Токаев провел встречу с председателем парламента Монголии

Глава государства провел встречу с Председателем Великого Государственного Хурала Монголии Дашзэгвийном Амарбаясгаланом, сообщает пресс-служба Акорды.…

3 дня ago

Глава государства поздравил работников нефтегазовой отрасли

На торжественной церемонии в Акорде Касым-Жомарт Токаев подчеркнул особую роль нефтегазового комплекса в национальной экономике…

3 дня ago

Нацбанк Казахстана назвал сроки вывода из обращения старых банкнот

В Казахстане продолжается поэтапная замена старых банкнот на купюры нового дизайна. Национальный банк Республики Казахстан…

3 дня ago