Вже деякий час ми використовуємо голосові команди, які стають командами для комп’ютера або телефону. Мовні команди можуть стати командами програмування. Чи можна запрограмувати гучний зв’язок і що таке голосове кодування?
Alexa, Siri, Apple CarPlay та Android Auto – ми використовуємо ці голосові команди для керування багатьма гаджетами. Існують також мобільні додатки, які реагують на голосові команди. Існує також можливість “писати” програмний код голосом. Здавалося б, це неможливо – адже основним інструментом програміста є мова програмування, набрана вручну.
Кодування голосу: що це таке?
Кодування голосу є досить складним завданням – воно містить спеціальні символи та вирази, які потрібно знати, щоб розмовляти ними. Існує багато типів синтаксису, умовних позначень і слів за межами словника. Крім того, вихідний код – це складніший текст для транскрибування “на слух”, ніж літературний – багато дужок, відступів на різних рівнях, велика кількість розділових знаків. Інша справа – подбати про точність: помилка в коді заблокує подальшу обробку вхідних даних. Як наслідок, операція не відбудеться.
Додаток для голосового програмування
Голосове програмування можливе за допомогою програми Serenade, яка покладається на механізм перетворення мови в текст, щоб перетворити мову на програмний код. Простіше кажучи, коли програміст вимовляє команду вголос, програмний движок передає її на рівень обробки природної мови. Згодом моделі машинного навчання ідентифікують і переводять типові конструкції в синтаксично правильний код, і таким чином створюється голосовий код. Таким чином, це працює не так, як Google Asistant, який обробляє мову і точно “перекладає” природну мову в голосове програмування.
Кодування голосу: цікаві факти
У 2020 році Serenade отримав $2,1 млн фінансування на подальший розвиток. Повідомляється, що співзасновник додатку настільки втомився від написання коду, що більше не міг писати. У якийсь момент йому поставили ультиматум: обрати інший кар’єрний шлях або… зовсім інше рішення. Він обрав останнє і створив програмне забезпечення, яке дозволяє йому займатися улюбленою справою.
Програмування гучного зв’язку
Схожа історія сталася з розробником платформи Talon Райаном Хілеманом. Він залишив свою постійну роботу програміста через посилення болю в руці. Talon працює на принципах розпізнавання мови, відстеження руху очей і захоплення шуму. Функціонування платформи базується на Wav2letter від Facebook, а Hileman розширив можливості розпізнавання команд програмування. Додаток додатково має інноваційну навігацію за допомогою миші (переміщення курсору по екрану рухом очних яблук і клацання рухом рота).
Кодування голосу: майбутнє
Незважаючи на ці інновації, важко повірити, що програмування без допомоги рук стане провідним напрямком розвитку в ІТ. Більшість програмістів залишаться з більш зручними для них рішеннями. Однак ця ніша має потенціал для тих, хто з певних причин не може користуватися традиційними інструментами програмування або …прагне нових вражень.