Кодування голосу або голосове програмування

26.03.2021
WIFI

Вже деякий час ми використовуємо голосові команди, які стають командами для комп’ютера або телефону. Мовні команди можуть стати командами програмування. Чи можна запрограмувати гучний зв’язок і що таке голосове кодування?

Alexa, Siri, Apple CarPlay та Android Auto – ми використовуємо ці голосові команди для керування багатьма гаджетами. Існують також мобільні додатки, які реагують на голосові команди. Існує також можливість “писати” програмний код голосом. Здавалося б, це неможливо – адже основним інструментом програміста є мова програмування, набрана вручну.

Кодування голосу: що це таке?

Кодування голосу є досить складним завданням – воно містить спеціальні символи та вирази, які потрібно знати, щоб розмовляти ними. Існує багато типів синтаксису, умовних позначень і слів за межами словника. Крім того, вихідний код – це складніший текст для транскрибування “на слух”, ніж літературний – багато дужок, відступів на різних рівнях, велика кількість розділових знаків. Інша справа – подбати про точність: помилка в коді заблокує подальшу обробку вхідних даних. Як наслідок, операція не відбудеться.

Додаток для голосового програмування

Голосове програмування можливе за допомогою програми Serenade, яка покладається на механізм перетворення мови в текст, щоб перетворити мову на програмний код. Простіше кажучи, коли програміст вимовляє команду вголос, програмний движок передає її на рівень обробки природної мови. Згодом моделі машинного навчання ідентифікують і переводять типові конструкції в синтаксично правильний код, і таким чином створюється голосовий код. Таким чином, це працює не так, як Google Asistant, який обробляє мову і точно “перекладає” природну мову в голосове програмування.

Кодування голосу: цікаві факти

У 2020 році Serenade отримав $2,1 млн фінансування на подальший розвиток. Повідомляється, що співзасновник додатку настільки втомився від написання коду, що більше не міг писати. У якийсь момент йому поставили ультиматум: обрати інший кар’єрний шлях або… зовсім інше рішення. Він обрав останнє і створив програмне забезпечення, яке дозволяє йому займатися улюбленою справою.

Програмування гучного зв’язку

Схожа історія сталася з розробником платформи Talon Райаном Хілеманом. Він залишив свою постійну роботу програміста через посилення болю в руці. Talon працює на принципах розпізнавання мови, відстеження руху очей і захоплення шуму. Функціонування платформи базується на Wav2letter від Facebook, а Hileman розширив можливості розпізнавання команд програмування. Додаток додатково має інноваційну навігацію за допомогою миші (переміщення курсору по екрану рухом очних яблук і клацання рухом рота).

Кодування голосу: майбутнє

Незважаючи на ці інновації, важко повірити, що програмування без допомоги рук стане провідним напрямком розвитку в ІТ. Більшість програмістів залишаться з більш зручними для них рішеннями. Однак ця ніша має потенціал для тих, хто з певних причин не може користуватися традиційними інструментами програмування або …прагне нових вражень.