У червні Міністерство цифрової трансформації України та компанія «Київстар» підписали меморандум про співпрацю, яка передбачає створення національної великої мовної моделі (LLM). Амбітне завдання, яке, за словами віцепрем'єр-міністра з інновацій Михайла Федорова, вчергове продемонструє світові технологічні амбіції України та доведе, що ми є серед лідерів, у тому числі, й у сфері штучного інтелекту. Міністерство координуватиме процес розробки моделі, формуватиме технологічну й етичну візії, забезпечуватиме збір даних для її навчання.
Під час презентації проєкту Укрінформ розпитав керівника центру розробки та впровадження ШІ-рішень у Міністерстві цифрової трансформації Данила Цьвока про нюанси роботи національної LLM, про базу для її «тренування», а також поцікавився практичними перевагами від її впровадження для українців та України.
- Нещодавно Мінцифри офіційно оголосило про старт роботи над національною великою мовною моделлю (LLM). Можете пояснити актуальність цього питання для України, у чому полягає перевага країни, яка має власну модель для розбудови AI-рішень?
Вітчизняна LLM розумітиме українську історію, діалекти, культуру тощо
- Велика мовна модель (Large Language Model, LLM) стане основою для масового запуску AI-продуктів для держави та бізнесів: AI-помічників, чат-ботів тощо. Фактично LLM – “інтелектуальна основа” для всіх відповідей, які ви отримуєте через чат-боти чи AI-помічників, бо вони – лише зручне вікно, яке допомагає вам взаємодіяти з моделлю. Модель працює за принципом людського мозку і може писати, редагувати, перекладати тексти й той же код. Вона, як і людина, навчається з різних даних і те, на якій інформації її навчили, прямо впливає на відповіді.
Зараз у світі на противагу глобальним комерційним моделям багато країн створюють національні моделі, натреновані на власних даних. Зараз це понад 25 моделей. Для України у створенні власної моделі є три ключові переваги – це якість, безпека та ціна.
Використання української моделі буде дешевшим за взаємодію з іноземними аналогами
Великої мовної моделі українською мовою, яка була б натренована на наших унікальних даних, немає. Наша модель буде якісніша за іноземні англомовні аналоги. Ми, по-перше, хочемо зібрати та агрегувати українські дані, фактично український контекст, на якому буде вчитися ця модель. Вітчизняна LLM розумітиме українську історію, діалекти, культуру тощо. Відповідь нашої моделі на питання "Чий Крим?" точно буде однозначною. По суті, ми закладаємо свою національну цифрову ДНК у глобальній AI-індустрії.
По-друге, безпека. Завдяки українській LLM усі дані, які будуть у неї потрапляти, залишатимуться в Україні, а не йтимуть за кордон. Сьогодні незалежність у цифровому світі, особливо в сфері штучного інтелекту, неможлива без створення власної суверенної AI-моделі.
По-третє, питання економічної ефективності – тобто використання української моделі буде дешевшим за взаємодію з іноземними аналогами.
- Ми ж не вигадуємо велосипед, я правильно розумію? Йдеться про національну адаптацію чи удосконалення вже існуючих архітектурних рішень, покладених в основу глобальних великих мовних моделей?
- Так. У світі вже є відкриті мовні моделі, так звані open-source. Вони навчені на певних загальнодоступних обсягах даних. Кожен може їх завантажити, розгорнути на власній інфраструктурі та вільно користуватися. Тому для створення національної моделі використання open-source – найшвидший та дешевший варіант, аніж розробка з нуля. Ми беремо якусь базову модель і “дотреновуємо” її на українських даних.
- Від чого залежатиме вибір базової моделі?
- Перш за все це технічні параметри: гнучкість, архітектура, легкість для масштабування. Також важливо, наскільки легко модель може адаптуватися до української мови. Плюс будемо зважати, на яких даних натренована модель та як вона відповідає на конкретне питання. Бо на те ж питання “Чий Крим?” різні моделі можуть відповідати по-різному. Ми шукаємо модель, яку зможемо найлегше довчити під українські дані й контекст.
- На яких даних ви плануєте навчати національну LLM?
Наша модель буде думати по-українськи
- Частину плануємо взяти із дата-сетів з відкритими даними. Але великою мірою унікальність моделі полягатиме в тому, що вона буде дотренована на даних, які є загальнодоступними, але не опублікованими в інтернеті на загал. Ми будемо збирати дані, які містять унікальний український контекст. Наприклад, наукові роботи, державні дані, але без чутливої інформації, з бібліотек тощо. Саме завдяки цій інформації наша модель буде думати по-українськи. Для цього будемо залучати університети, наукові структури, національні бібліотеки та інтелектуальні фонди.
Одразу скажу, що жодні персональні дані туди точно не потраплять. Навіть коли ми працюватимемо з документами, взятими в органів влади, відбуватиметься їх анонімізація.
- Наведіть приклад, які зміни з появою національної АІ-моделі відчують звичайні користувачі? Анонсувалися, до слова, зміни у роботі «Дії». Чого очікувати?
- Наприклад, скоро ми запускаємо AI-асистента в “Дії”. Зараз працюємо над тим, щоб він давав чіткі якісні відповіді, але з появою української LLM якість його відповідей підвищиться. І так буде з усіма продуктами, що працюватимуть на основі нашої національної моделі.
- Удосконалений АІ-помічник – це такий, коли неможливо буде визначити, хто з тобою спілкувався – людина чи штучний інтелект?
- Питання не лише у спілкуванні. Ідея AI-помічника в “Дії” – щоб він не лише відповідав на запитання, а міг визначити, яка послуга вам потрібна в тій чи іншій ситуації й надав її. Тобто вам не треба буде ходити по різних сторінках – “Дія” надішле вам потрібну довідку та дасть рекомендації прямо в чаті.
- Який економічний ефект від цієї ініціативи очікується?
Українська LLM працюватиме на вітчизняній інфраструктурі, тому усі чутливі дані залишатимуться всередині країни
- Поки що складно підрахувати, оскільки LLM вплине на багато секторів та процесів. З одного боку, це економія коштів для державного сектору. Водночас доступ до мовної моделі стимулюватиме бізнес створювати власні нові AI-продукти, бо український штучний інтелект стане доступним та якісним.
Точно можемо сказати, що українська LLM – це дешевше, ніж використання комерційних моделей від іноземних компаній через API. До того ж варіант з API не покриває всі випадки використання ШІ в державі, наприклад, рішення для оборонного сектору. Коли ви працюєте з API, ваші дані, по суті, йдуть за кордон. Українська LLM працюватиме на вітчизняній інфраструктурі, тому усі чутливі дані залишатимуться всередині країни.
- Так коли очікувати на появу української LLM?
- Перший етап розрахований орієнтовно на 9 місяців. А далі вже будемо вдосконалювати систему, залучати й опрацьовувати нові дані. Крім того, ще маємо провести оцінку моделі на предмет етичності та відсутності ознак дискримінації (так званий Human Evaluation). Для координації цього процесу у нас працюватиме етичний комітет з профільними фахівцями. Одним словом, роботи багато, ми лише розпочинаємо.
Юлія Абакумова, Київ
Фото: Facebook.com/danylo.tsvok, Павло Багмут