Розробники з технологічного креативного агентства ISD Group вперше навчили штучний інтелект говорити українською. Однією з цілей було створити таку модель, яка зможе спілкуватися українською, як звичайна людина, — зі сленгом і без цензури.

Читайте також: У Києві з'явиться перший інтерактивний "Музей науки"

Свою версію штучного інтелекту розробники створили на базі моделі GPT-2 від Hugging Face, розповів засновник і керівник агенції Віктор Шкурба виданню Ain.ua. Це напрацювання дозволяє нейромережі генерувати зв’язний текст, який максимально нагадує мову людей.

В основі мовна модель, що генерує розподіл імовірностей для наступного слова, базуючись на попередніх і будує логічне дерево послідовностей. Команда агентства створила мовний корпус нейромережі за допомогою відкритих баз словників українських розробників — Lang-uk, Brown-uk, ВЕСУМ, ГРАК. Для тренування штучного інтелекту зібрали три гігабайти творів українською з онлайн-бібліотек. Також використовували інструменти, які допомагають будувати контекст і коректні послідовності слів у текстах.

Щоб нейромережа говорила більш сучасно, до мовного корпусу додали субтитри сучасних фільмів, серіалів, блоги, твіти та інший user-generated контент із соціальних мереж. На другому етапі розробки команда вирішила піти на експеримент і додати "характер" штучному інтелекту. До збору датасету залучили молодь через відкриті ігрові Telegram-боти. Користувачі давали відповіді на запитання.

Крім цього, через нейромережу в декілька раундів проганяли вигадані нею ж ідеї, позначали найбільш вдалі та моніторили результат. Розробка AI зайняла пів року.