Розробники з технологічного креативного агентства ISD Group вперше навчили штучний інтелект говорити українською. Однією з цілей було створити таку модель, яка зможе спілкуватися українською, як звичайна людина, — зі сленгом і без цензури.
Читайте також: У Києві з'явиться перший інтерактивний «Музей науки»
Свою версію штучного інтелекту розробники створили на базі моделі GPT-2 від Hugging Face, розповів засновник і керівник агенції Віктор Шкурба виданню Ain.ua. Це напрацювання дозволяє нейромережі генерувати зв’язний текст, який максимально нагадує мову людей.
В основі — мовна модель, що генерує розподіл імовірностей для наступного слова, базуючись на попередніх і будує логічне дерево послідовностей. Команда агентства створила мовний корпус нейромережі за допомогою відкритих баз словників українських розробників — Lang-uk, Brown-uk, ВЕСУМ, ГРАК. Для тренування штучного інтелекту зібрали три гігабайти творів українською з онлайн-бібліотек. Також використовували інструменти, які допомагають будувати контекст і коректні послідовності слів у текстах.
Щоб нейромережа говорила більш сучасно, до мовного корпусу додали субтитри сучасних фільмів, серіалів, блоги, твіти та інший user-generated контент із соціальних мереж. На другому етапі розробки команда вирішила піти на експеримент і додати «характер» штучному інтелекту. До збору датасету залучили молодь через відкриті ігрові Telegram-боти. Користувачі давали відповіді на запитання.
Крім цього, через нейромережу в декілька раундів проганяли вигадані нею ж ідеї, позначали найбільш вдалі та моніторили результат. Розробка AI зайняла пів року.