Когда искусственный интеллект выучит казахский язык

Мухтар Абаев 16.07.2024

Обновлено 16.07.2024 в 11:07

Фото: пресс-служба премьер-министра

Первую версию большой языковой модели на казахском языке (KazLLM) планируется представить в декабре этого года, заявил министр цифрового развития, инноваций и аэрокосмической промышленности Жаслан Мадиев на заседании Правительства, сообщает агентство Kazinform.

По словам министра, для развития исследований в области ИИ определены два основных направления. Первое — создание большой языковой модели на казахском языке (KazLLM) силами НУ и НИТ. Данная модель будет основана на 100 млрд токенов.

Для обеспечения высокого качества модели критически важно собрать максимальное количество данных на казахском языке. Для этих целей будет проводиться национальный сбор данных — масштабная кампания по сбору данных на платформе Hugging Face. В настоящее время собрано 28 млрд токенов из открытых источников и порядка 100 терабайт данных из государственных и квазигосударственных органов, а также государственных архивов и СМИ,
пояснил Жаслан Мадиев.

Параллельно будет разработана KazLLM совместно с международными компаниями. Партнером арабской стороны выступит НИТ. Модель будет основана на 30-40 млрд токенов на основе данных из открытых источников. Проект будет реализован на безвозмездной основе.

Планируется представить первую версию KazLLM в декабре текущего года. К 2029 году мы планируем довести количество патентов в области ИИ до показателя не менее 20 в год,
сказал глава Минцифры.