Штучний інтелект вперше навчили говорити українською мовою

Технологічна креативна агенція ISD Group навчила штучний інтелект розмовляти українською — зі сленгом і без цензури. Розробники використовували модель GPT-2 — напрацювання від Hugging Face, що дозволяє нейромережі генерувати зв’язний текст, який максимально нагадує мову людей.

Мета була створити модель, яка зможе спілкуватися українською, як звичайна людина, — зі сленгом і без цензури.

Спочатку розробники створили мовний корпус нейромережі за допомогою відкритих баз словників українських розробників. Після цього, генератор GPT-2 доповнили інструментами, які допомагають будувати контекст та коректні послідовності слів в текстах: Hugging Face Transformers, PyTorch, LanguageTool.

До мовного корпусу додали субтитри сучасних фільмів, серіалів, блоги та різний контент із соціальних мереж — інтелект почав говорити сучасно та сленгово.

«На другому етапі ми вирішили піти на експеримент. Не повторювати створення нейтральної системи, штучного порадника, а піти далі і надати йому характеру. Це поганий хлопець, навіть трохи божевільний, який постійно підштовухує своїх друзів на якісь шалені вчинки», — ділиться СЕО та креативний директор isdgroup Віктор Шкурба.

Для цього залучили молодь через відкриті ігрові телеграм-боти, які давали відповіді на питання для наповнення нейромережі.

Далі через штучний інтелект в декілька раундів проганяли вигадані нею ж ідеї, позначали найбільш вдалі та моніторили результат. Для цього в ISD створили систему похвали і покарань для нейромережі: за врахування зданих параметрів вона і: отримувала «плюси» — rewards, а за зловживання ними система давала «мінус»- penalties. Це допомогло не просто запрограмувати нейромережу і змусити її виконувати певні дії за шаблонами мовного корпусу та людських варіантів датасету, а скоригувати генерацію послідовностей у сторону найбільш непередбачуваних та неординарних відповідей.

Що з цього вийшло можна подивитися на сайті.

У нас є ще дещо для вас