Каким должен быть украинский проект № 1 в искусственном интеллекте?.

Позволю себе высказать такое футуристическое предположение: за 50−100 лет может оказаться, что на планете применяемыми останутся те языки, которые преодолеют «цифровой барьер»

Технології штучного інтелекту (ШІ) стають рушієм змін в багатьох галузях від промисловості до сервісних галузей, від фінансів до освіти. Більше 50 країн світу на сьогодні декларують, що розвиток ШІ є для них важливим та, певною мірою, пріоритетним напрямком. Україна також на рівні держави поволі починає свій власний рух у бік визнання важливості ШІ для свого майбутнього розвитку. Тож постає питання: якими можуть бути стратегічно важливі напрямки ШІ, які має фінансувати держава Україна, а точніше, ми з вами — платники податків? Ось аргументи за один з таких потенційних проєктів.

Отже, протягом менше ніж десяти років у світовій галузі інформаційних технологій вибухоподібно набирає обертів штучний інтелект. Це не є чимось новим — його дослідження розпочалися в середині минулого сторіччя. Відтоді цей напрямок піднімався на хвилях захоплення та опускався до низин розчарувань кілька разів (так звані періоди «зим штучного інтелекту»). Приблизно з 2012 року починається новітня відлига, до якої призвели два основних фактори.

Форми розвитку та підтримки людських мов активно переходять у цифрову площину

По-перше, це поява великих та доступних обчислювальних ресурсів. Головним рушієм сучасних застосувань штучного інтелекту є штучні нейронні мережі (artificial neural networks, ANN), а саме їх підвид — глибокі нейронні мережі (deep neural networks, DNN). Сама назва відсилає до розуміння, що їх творці керувалися аналогіями роботи нашого мозку. І хоча перші розробки ANN з’явилися наприкінці 1950-х, для реальних застосувань цієї технології необхідні були потужні комп’ютери, а точніше графічні карти (graphics processing unit, GPU), які є головним апаратним рушієм та дозволяють масово розпаралелювати обчислення всередині нейронних мереж. Тому саме DNN, натреновані на потужних сучасних GPU, дозволяють комп’ютерам синтезувати людську мову і музику, малювати картини в стилях відомих художників та багато іншого, з чим ми зараз асоціюємо технології штучного інтелекту в масовому вжитку.

Другим важливим фактором стали дані та можливість накопичувати їх у майже необмежених обсягах. Штучні нейронні мережі є підвидом технологій машинного навчання (machine learning, ML), які в свою чергу є частиною штучного інтелекту. ML-технології працюють за наступним принципом. Ми показуємо системі (або моделі, якщо точніше) певний набір даних та вчимо її коректно реагувати на появу нових, не бачених нею дотепер, даних подібної природи. Цей процес називається тренуванням моделі. Наприклад, модель для визначення облич людей на фотографіях бачила багато людей на багатьох фото, але, очевидно, не всіх людей, які жили, живуть чи будуть жити. Тож на бачених раніше прикладах вона повинна навчитися визначати і нові зображення облич, які побачить на нових фотографіях. Для тренування моделей DNN потрібні великі обсяги даних (те, що часом називають big data, хоча тут є тонкощі термінології). Ці дані ми, людство, почали накопичувати та ефективно обробляти останні 20 років.

Цей вступ, інформація з якого відома будь-якому фахівцю зі штучного інтелекту, був потрібен, аби показати важливість двох речей для створення технологій ШІ: обчислювальних потужностей та доступу до великих об'ємів даних (і бажано структурованих).

Тепер перейдемо безпосередньо до проєктів в галузі ШІ, які мають особливу цінність для нашої країни. І коли вживається слово «цінність», то вочевидь необхідним є визначити критерії цієї цінності. Також при визначенні таких ціннісних проєктів потрібно враховувати доступні ресурси та обмеження. Про останні я майже не буду говорити, а от до ресурсів, окрім згаданих обчислювальних потужностей та якісних (великих) даних, слід додати таланти (дослідників та інженерів у галузі ШІ) і, напевно, фінанси. З фінансами все досить зрозуміло: їх завжди мало, але загалом відомо, де можна знайти в разі потреби. Куди гірше з талантами — на навчання професіоналів йдуть роки (якщо не десятки років). Для галузі ШІ вкрай важливим є математичний рівень підготовки (якщо ми говоримо про розробку нових технологій). А з недавніх новин ми бачимо, що рівень математичної підготовки в Україні поступово падає.

Тим не менш, в деяких дослідженнях Україну (разом з певними іншими пострадянськими країнами) називають однією з країн, які мають відмінний потенціал у розробці технологій ШІ в галузі комп’ютерного зору (computer vision). Ця галузь охоплює широкий спектр застосувань: від фото-фільтрів у вашому смартфоні та розпізнавання облич ваших друзів у Facebook до систем керування самокерованими автівками (self-driving cars) і визначення пухлин на рентгенівських знімках. Україна має добру світову репутацію в галузі комп’ютерного зору завдяки існуванню кількох десятків добрих фізико-математичних ліцеїв та університетських наукових шкіл, а також фундаментальним науковим дослідженням, які велися тут у радянські та пізніші часи.

Чи може якийсь проєкт в галузі комп’ютерного зору претендувати на позицію найголовнішого проєкту з ШІ в нашій країні? Цілком ймовірно, враховуючи наявні добрі таланти. Але конкретно тут проблема полягає в тому, що добрі фахівці вам зможуть згенерувати кілька десятків, якщо не сотень, потенційно важливих для економічного та суспільного розвитку проєктів із застосуванням комп’ютерного зору: визначення місць лісових пожеж та підпалів на полях за допомогою супутникових знімків, аналіз рентгенівських знімків, аналіз відео з камер спостереження за транспортними потоками, визначення фізичних пошкоджень на об'єктах промислової інфраструктури та багато інших. І який з них обрати, щоби скерувати наші обмежені фінансові ресурси? Боюся, що одного особливого в цьому напрямку ми не знайдемо. Також абсолютна більшість цих проєктів не має прив’язки до конкретної країни. З одного боку, це добре: якщо ми створили якісний продукт, то можемо його масштабувати на інші ринки (чим і займаються багато наших успішних стартапів у галузі комп’ютерного зору). З іншого боку, це так само означає, що за потреби ми можемо купити готове рішення в іншій країні (і це часто буде дешевше, ніж створювати власне).

Інша добра галузь, в якій ми маємо великий потенціал — це наше сільське господарство. ІТ-технологіями в агро майже нікого не здивуєш. В Україні за останні роки з’явилися компанії, які розроблять світового рівня рішення у напрямку застосувань ІТ до агро. Ця галузь потенційно є доброю для застосувань ШІ тим, що тут з кожним роком з’являється все більше і більше даних. Фактично, на кожне поле сільськогосподарського призначення ви вже можете мати такий собі багатошаровий пиріг даних: рівень кислотності ґрунту, об'єм добрив у різних ділянках поля, точні координати посаджених насінин, вага зібраного вражаю з високою роздільною точністю, не враховуючи ті ж такі супутникові знімки та метеорологічні дані. І я тут ще не зачіпав задачі логістики та зберігання врожаю в елеваторах.

Тож справді виглядає так, що потенціал впровадження технологій ШІ в агро-секторі дуже великий, і тут теж можна очікувати на появу стартапів, що зможуть запропонувати якісні продукти та сервіси світового рівня. Але так само як і з комп’ютерним зором, вибір точок прикладання зусиль досить великий, і не є очевидним, де саме ставити акценти. На мій погляд, куди краще з цим дасть раду приватний сектор (який і так поступово це робить).

Подібні перспективи можна шукати й в інших галузях, хоча там Україна має мало або взагалі не має переваг порівняно з іншими країнами: ШІ в медицині або машинобудуванні розвивається стрімкіше деінде.

І тут ми підходимо до ще одного важливого і популярного напрямку застосування ШІ - це обробка природної мови (natural language processing, NLP) або комп’ютерна лінгвістика. Прикладами застосувань ШІ в цій галузі є машинний переклад (всім відомий Google Translate побудований здебільшого на технологіях ШІ), системи орфографічного та стилістичного виправлення тексту (компанія Grammarly з українським корінням та потужною командою українських розробників є світовим лідером у цьому напрямку), автоматичні системи текстової підтримки користувачів (чат-боти), генерування стислих текстів новин на основі більших об'ємів текстів або новин спортивних подій на основі текстової трансляції матчів.

Багато з технологій NLP роблять нам, кінцевим користувачам, інформацію з іншомовних джерел доступнішою. Наприклад, я не знаю німецької, але добре знаю англійську, тож важливий для мене текст німецькою я перекладу Google Translate’ом на англійську (і система зробить це порівняно добре). Також є велика кількість інших цікавих та специфічних рішень на основі NLP для англійської мови. Вони з’являються і для інших «великих» мов, але їх годі знайти для української. І основна проблема тут не в тому, що в нас немає фахівців (адже найкращу масову систему перевірки англійської орфографії створили українці) чи обчислювальних ресурсів (вони доступні всім і порівняно дешево). Чого нам тут бракує - це даних.

Людські мови у комп’ютерній лінгвістиці розділяються на high-resourse та low-resource, тобто такі, що володіють великими та малими ресурсами. Тут в першу чергу маються на увазі різноманітні корпуси: збірки текстів, які можуть (або ні) об'єднуватися певною тематикою. Дуже часто ці корпуси вручну попередньо обробляються фахівцями, коли вони, наприклад, вказують для кожного слова, якою частиною мови воно є. Це кропітка та дорога робота.

Згадаймо поверхневий опис ШІ на початку статті. Для роботи сучасних ШІ-рушіїв потрібні великі об'єми якісних даних. Якщо для задач комп’ютерного зору нам дуже часто немає значення в якій країні був створений набір даних для тренування моделей ШІ (а останнім часом взагалі поширюються технології синтетично створених наборів даних), то для лінгвістичних задач це не є можливим. Іншими словами, нам годі чекати, що добрі україномовні корпуси для створення сучасних систем ШІ з комп’ютерної лінгвістики будуть створені в якійсь іншій країні крім нашої. Хоча принаймні ще одна держава може і подумати над створенням таких наборів даних замість нас, але звідти нам вже писали словники та штучно обрубували нашу писемність (і я зараз не про австрійський генштаб).

Чи може в цій задачі основну роль взяти на себе український приватний сектор? На мою думку (і це підтверджується спілкуванням з окремими представниками бізнесу), цей проєкт малоцікавий бізнесу, адже, по-перше, початкові витрати значні, а горизонт повернення інвестицій є далеким. А по-друге, україномовний ринок надто невеликий для сталого та інноваційного ІТ-бізнесу в сучасній Україні (іншими словами, на цьому не заробиш). Звичайно, коли початковий етап буде подоланий, згадані корпуси — створені, а українські NLP-моделі - викладені у відкритий доступ, тоді й бізнес підтягнеться і ми побачимо стартапи, що почнуть пропонувати цифрові україномовні рішення якісної перевірки орфографії, машинного перекладу, генерації текстів новин та автоматичного спілкування з користувачами у службах підтримки.

Чи можемо ми розраховувати на «розв'язання задачі українського NLP» великими іноземними компаніями? Напевно, лише частково, допоки самі не зробимо перший крок. Так, хоча більшість українців досі користується перевіркою української орфографії, яка вбудована у Microsoft Word, але їх український словник достатньо давно вже не оновлювався і Word дотепер підкреслює слова, які з’явилися та закріпилися у мові за останні роки чи десятиліття. Так само перекладач від Google робить переклад на українську часто через російську власне через відсутність достатніх україномовних корпусів для тренування.

Ніхто інший, окрім української нації, не здатний підтримати українську мову. Ми це бачимо протягом всієї сучасної історії нашої держави. В добу, коли світ карколомно змінюється під впливом технологій, а особливо технологій штучного інтелекту, форми розвитку та підтримки людських мов активно переходять у цифрову площину. Недарма ми пишаємося успіхами української Вікіпедії, яка не так давно подолала позначку в мільйон статей.

Звісно, не можна стверджувати, що ще нічого не зроблено в напрямку українського NLP. Є різні групи ентузіастів та волонтерів, які працюють над наповненням корпусів або створенням українських NLP-моделей: lang-uk, браунівський корпус БрУК, російсько-український та англійсько-український онлайн-словники та інші. Але масштаб задачі надто великий, аби це вирішували лише окремі волонтерські групи за власний кошт або невеликі пожертви меценатів.

Дозволю собі висловити таке футуристичне припущення: за 50−100 років може виявитися, що на планеті вживаними залишаться ті мови, які подолають «цифровий бар'єр»: ними почнуть «говорити» комп’ютери, смартфони та інші пристрої. Досить легко уявити собі підлітка у 2070 році, який каже своєму дідові: «Нащо мені твоя українська, якщо я не можу згенерувати нею текст пісні для своєї композиції або отримати автоматичну відповідь на своє питання?»

З-поміж інших напрямків ШІ, які можуть розвиватися в Україні, створення українського NLP є стратегічною задачею, ба навіть безпековою (так само, як будь-яка інша підтримка державної мови). Розробка подібних систем (і підготовча робота формування україномовних корпусів) — це проєкт № 1 для України в галузі штучного інтелекту.

І ще. Все викладене вище так само стосується і працює для кримськотатарської мови.

Приєднуйтеся до нашого телеграм-каналу Мнения НВ

Новости по теме

Бой за кресло мэра Киева. Кто выйдет против Кличко?

Конфигурация будущего большинства в Киевраде может оказаться очень пестрой

2

Симптомы кризиса. К чему приведут протесты в России

С одной стороны, это важный и скверный признак для путинского режима, с другой — вовсе не та соломинка, которая ломает спину верблюду

4

Как кризис помог развитию внутреннего туризма в Украине.

Туристический сектор страны может стать одной из немногих украинских отраслей, которые могут извлечь выгоду из кризиса COVID-19.

Симптомы кризиса. О чем свидетельствуют протесты в России

С одной стороны, это важный и скверный признак для путинского режима, с другой — вовсе не та соломинка, которая ломает спину верблюду

1

Зеленский легализовал кости, а Тимошенко легла костьми.

Чем жила страна 14 июля 2020 года

4 1

Продолжая просматривать Новости Украины (UAZMI), вы подтверждаете, что ознакомились с Правилами пользования сайтом, и соглашаетесь на использование файлов cookie