Разработчики из технологического креативного агентства ISD Group впервые научили искусственный интеллект говорить на украинском. Одной из целей было создать такую модель, которая сможет говорить на украинском, как обычный человек, — со сленгом и без цензуры.
Читайте также: В Киеве появится первый интерактивный «Музей науки»
Свою версию искусственного интеллекта разработчики создали на базе модели GPT-2 от Hugging Face, рассказал основатель и руководитель агентства Виктор Шкурба изданию Ain.ua. Эта наработка позволяет нейросети генерировать связный текст, который максимально напоминает язык людей. В основе — языковая модель, которая генерирует распределение вероятностей для следующего слова, основываясь на предварительных и строит логическое дерево последовательностей.
Команда агентства создала языковой корпус нейросети с помощью открытых баз словарей украинских разработчиков — Lang-uk, Brown-uk, ВЕСУМ, ГРАК. Для тренировки искусственного интеллекта собрали три гигабайта произведений на украинском из онлайн-библиотек. Также использовали инструменты, которые помогают строить контекст и корректные последовательности слов в текстах.
Чтобы нейросеть говорила более современно, к языковому корпусу добавили субтитры современных фильмов, сериалов, блоги, твиты и другой user-generated контент из социальных сетей. На втором этапе разработки команда решила пойти на эксперимент и добавить «характер» искусственному интеллекту. К сбору датасета привлекли молодежь через открытые игровые Telegram-боты. Пользователи давали ответы на вопросы.
Кроме этого, через нейросеть в несколько раундов прогоняли вымышленные ею же идеи, обозначали наиболее удачные и мониторили результат. Разработка AI заняла полгода