Украина создает собственную языковую модель «Сияние»: архивы предоставили 10 терабайтов данных для обучения ИИ

В Украине идет разработка национальной крупной языковой модели (LLM) под названием «Сияние». Главная цель проекта — создать искусственный интеллект, максимально точно понимающий украинский культурный контекст, историю и уникальные диалекты. О деталях разработки сообщил и.о. министра цифровой трансформации Александра Борнякова.

Архивные фонды

Ключевым этапом обучения модели стал сбор уникальных данных, ранее не использовавшихся для тренировки глобальных чат-ботов. К инициативе уже присоединились более 50 организаций.

Крупнейшим поставщиком знаний стал Укргосархив, передавший для разработки 10 терабайтов информации. Для сравнения, этот объем данных эквивалентен библиотеке из 70 тысяч печатных книг. Это первый случай в истории Украины, когда архивные фонды напрямую вовлечены в создание передовых цифровых сервисов.

Планы до конца 2026 года

По словам Борнякова, Украина уже занимает ведущие позиции в мире по темпам оцифровки архивов. Однако в правительстве планируется значительное масштабирование. Сейчас в цифровом формате доступно около 150 млн. копий документов.

Прогнозируется, что к концу 2026 г. количество цифровых копий превысит 200 млн. Все эти данные станут базой для тренировки «Сяйва».

Вас также может заинтересовать

Оставить комментарий