Sterowanie głosem użytecznym dodatkiem do systemów HMI

9.7.2022

Po co nam rozpoznawanie mowy? Mamy przecież dwie ręce i dwoje oczu, dzięki którym możemy obsługiwać komputer. Oczami czytamy z ekranu, a rękami możemy obsługiwać ekran dotykowy, mysz lub klawiaturę. Chyba że…

Sterowanie mową nie jest nowością. Technologia ta przeżyła gwałtowny rozwój wraz z wprowadzeniem na rynek wirtualnych asystentów głosowych, takich jak Alexa (Amazon), rozwiązanie Google, Siri (Apple), Cortana (Microsoft) czy Bixby (Samsung). Analogiczne systemy są już też stosowane w samochodowych systemach nawigacyjnych. Rozpoznają adresy i nazwiska, a także wykorzystują głos do przekazywania komunikatów dotyczących nawigacji, zdarzeń drogowych i innych informacji.

Prowadzony dialog jest często bardzo sformalizowany: słowa kluczowe muszą pojawić się w określonym miejscu w strukturze zdania, aby zostały rozpoznane i prawidłowo przypisane. Ponieważ systemy te muszą sobie radzić bez mocy komputerów podłączonych do Internetu, a systemy zintegrowane z pojazdem często muszą wykonywać wiele zadań, słownictwo jest ograniczone, a składnia sformalizowana.

Wykorzystanie języka jako medium wejściowego ma sens, jeśli użytkownik nie jest nim przytłoczony. Oznacza to, że albo ma więcej możliwości wprowadzania danych, albo składnia danych wejściowych jest tak prosta (tzn. tak bliska językowi naturalnemu, że nie wymaga wysiłku związanego z uczeniem się). W połączeniu ze znanymi sposobami obsługi interfejs SUI (Speech User Interface) może być łączony z interfejsem GUI (Graphical User Interface) i jest przydatnym dodatkiem do wyświetlaczy z ekranami dotykowymi, klawiaturami i myszami.

Zalety wprowadzania danych za pomocą mowy

Wprowadzanie danych za pomocą głosu ma liczne zalety, choć znajdziemy je w bardzo różnych obszarach. Z jednej strony wtedy, gdy żadna ręka nie jest wolna, aby obsługiwać element sterujący.
Z drugiej strony wtedy, gdy nie można odwrócić wzroku od oglądanego obiektu, np. podczas operacji lub pracy pod mikroskopem czy lupą. Ponadto sterowanie głosem służy także zwiększeniu komfortu, do czego zwykle wykorzystuje się systemy internetowe.

Nie do przecenienia jest możliwość jednoczesnego wprowadzania poleceń i parametrów za pomocą jednego zdania, zamiast konieczności poruszania się po menu w interfejsie graficznym w celu indywidualnego ustawiania funkcji i wartości. Wszystkie polecenia i ustawienia dostępne w konwencjonalnym graficznym interfejsie użytkownika mogą być aktywowane jednocześnie z „poziomu głównego”. Towarzyszy temu znaczny wzrost wydajności.

Przykładowe zastosowania sterowaniem głosowym

Przemysł:
• Naturalna współpraca z robotami i aplikacjami rozszerzonej rzeczywistości.
• Kontrola maszyn i urządzeń.
• Automatyka przemysłowa, technologia testowa i pomiarowa;
• Bezdotykowa praca urządzeń w trudno dostępnych lub potencjalnie wybuchowych środowiskach.

Technologie medyczne:
• Sterowanie głosowe łóżka (np. poruszanie się w górę i w dół, pozycja siedząca i leżąca).
• Pobieranie informacji z bazy danych (np. podczas operacji);
• Dokumentacja czynności w opiece pielęgniarskiej i geriatrycznej lub rehabilitacji.
• Bezdotykowa praca urządzeń w trudno dostępnych lub sterylnych środowiskach.

Inteligentny dom:
• Sterowanie oświetleniem, ogrzewaniem, klimatyzacją, roletamo czy hydrauliką.
• Interakcja z elektroniką użytkową: telewizory, multimedia, amplitunery AV.
• Interakcja z mediami elektronicznymi: smartfon, tablet, PC, czytnik e-booków.
• Sterowanie urządzeniami AGD.

Sterowanie głosem: on-line czy off-line?

Zasadniczo rozróżnia się sterowanie głosem w trybie on-line i off-line. Urządzenia, które zazwyczaj są połączone z innymi w sieci (takie jak sprzęt elektroniczny, automatyka domowa i sterowanie mediami), mogą sterować innymi urządzeniami właśnie dzięki temu połączeniu. Inne urządzenia, stanowiące samodzielny system, wykorzystują zalety pracy w trybie off-line: nawet w miejscach pozbawionych zasięgu transmisji danych funkcja jest zagwarantowana, a dane są bezpieczne dzięki rozwiązaniu Privacy by Design. Ponadto instalacja stacjonarna gwarantuje długotrwałą dostępność.

Wprowadzanie głosowe staje się również interesujące z punktu widzenia sterowania różnymi urządzenia w przemyśle, ponieważ umożliwia szersze warianty działania i większą elastyczność. Jednak, ze względu na długi okres eksploatacji maszyny i zwiększoną potrzebę zapewnienia bezpieczeństwa w produkcji, potencjalny użytkownik ma dodatkowe wymagania, które wykraczają poza te przedstawione powyżej.

Rozwiązanie do wprowadzania głosowego musi być dostępne przez długi czas, a w razie potrzeby musi być możliwe do rozbudowy. Słowo aktywujące, zwane również „słowem powitalnym”, musi dawać się dowolnie wybrać. Dostępnych musi być też wiele języków międzynarodowych, z których jeden jest wybierany podczas instalacji lub konserwacji.

Sterowanie głosowe w trybie off-line

Poniżej przedstawiono rozwiązanie opracowane przez firmę Voice Inter Connect, która specjalizuje się w rozwiązaniach audio. Podczas pracy działa ono całkowicie bez połączenia z internetem, ponieważ rozpoznawanie odbywa się lokalnie przez procesor systemu. Otwiera to obszary możliwości, w których dane muszą być utrzymywane w tajemnicy lub gdzie nie ma zasięgu umożliwiającego transmisję danych.

Dużą zaletą tego rozwiązania jest komunikacja w języku naturalnym. Mowa nie musi być zgodna z ustaloną składnią i może być wypowiadana całkowicie swobodnie. Wynik rozpoznawania jest przetwarzany semantycznie za pomocą procedur oceny opartych na sztucznej inteligencji. Dzięki temu żądana klasa funkcji (intent), wprowadzone parametry (slot) i związane z nimi wartości (value) mogą być automatycznie rozpoznawane i udostępniane do sterowania urządzeniem.

Jakie są wymagania dotyczące korzystania z systemu sterowania głosem? Pierwszą i najważniejszą kwestią jest niezawodność rozpoznawania mowy. W tym przypadku wydajność systemu nie jest gorsza od poziomu błędów rozpoznawania w systemach rozpoznawania mowy opartych na chmurze (Amazon Alexa, Google Home). Aby integracja zyskała akceptację, musi być prosta i kompatybilna z wieloma produktami. Polecenia powinny być wprowadzane w języku naturalnym z możliwością swobodnego wyboru struktury zdania. Z kolei słowa wypełniające, które nie są istotne dla maszyny, powinny być automatycznie ignorowane.

W zastosowaniach profesjonalnych, np. w przemyśle i technice medycznej, dane muszą być bezpieczne i niemożliwe do przechwycenia przez osoby trzecie. System wbudowany może to zrobić, ponieważ całe przetwarzanie odbywa się lokalnie.

Co się stanie z systemem on-line, jeśli połączenie sieciowe z serwerem w chmurze ulegnie awarii? Czy wtedy produkcja zostaje wstrzymana? Dzięki przetwarzaniu lokalnemu etapy procesu, dane i parametry pozostają lokalne i są zabezpieczone przed konkurencją. Ze względu na dużą liczbę dostępnych języków narodowych aplikacje mogą być wdrażane na platformie wbudowanej w wielu językach. Oznacza to, że z jednej strony można dokładnie zdefiniować terminy i dostosować je do zwyczajów danego kraju, a z drugiej – można pominąć terminy niepożądane. W przypadku serwisu szybki dostęp do informacji o stanie wprowadzania mowy jest niezbędny do ustalenia przyczyny usterki. W przypadku zastosowań profesjonalnych kluczowa jest długoterminowa dostępność, ponieważ lokalne sterowanie głosem nie podlega modelowi biznesowemu dostawcy chmury, który zmienia swój model kosztów lub wyłącza usługę.

MOŻE ZAINTERESUJE CIĘ TAKŻE

Automatyzacja produkcji

Ruch, głos czy myśl. Przyszłość HMI

HMI czyli Human Machine Interface po polsku zwane panelem operacyjnym, to nic innego jak urządzenie elektryczne umożliwiające kontrolę innych urządzeń elektrycznych realizujące pewne procesy technologiczne lub produkcyjne. Do głównych funkcji panelu operacyjnego należy pośredniczenie w komunikacji pomiędzy człowiekiem a maszyną, zbieranie danych, kontrola procesów i sygnalizacja nieprawidłowości.

Komunikacja

Internet Zmysłów zrewolucjonizuje komunikację?

Do 2025 r. wirtualna rzeczywistość wzbogaci się o doznania zmysłów takich jak węch czy smak. Do 2030 r. prześlemy cyfrowo myśli – planuje firma Ericsson. Już dziś Facebook inwestuje w stworzenie metawersum, czyli wirtualnego substytutu świata. Eksperci są natomiast zgodni co do tego, że pełna immersja, czyli zanurzenie w wirtualnej rzeczywistości, wymaga integracji wszystkich zmysłów. Sam rynek VR w ciągu najbliższych kilku lat zwiększy swoją wartość ponad pięciokrotnie.

Scenariusze zastosowań sterowania głosowego systemami HMI

Sterowanie głosowe przyspiesza wykonywanie złożonych zadań operacyjnych dzięki łączeniu poleceń i parametrów w jednym kroku. Wsparcie może być kontekstowe, co jest szczególnie ważne w przypadku rzeczywistości rozszerzonej. Wyszukiwanie danych w systemach eksperckich jest uproszczone, a asystenci cyfrowi i narzędzia pracy zespołowej optymalizują procesy robocze.

Jednym z aspektów jest również rejestrowanie towarzyszące procesowi. Niektóre rutynowe zadania mogą być wykonywane bez użycia rąk operatora, a maszyna może automatycznie sprawdzać, czy prowadzony dziennik jest kompletny. Odgrywa to szczególną rolę w dokumentacji zapewniającej jakość, np. w konserwacji maszyn lub kontroli samolotów. Wyniki badań można wprowadzać bezpośrednio do systemu, który wpisuje dane we właściwe miejsce w dzienniku, niezależnie od kolejności.

Procedura wdrażania

Dzięki internetowemu środowisku programistycznemu wystarczy kilka kroków, żeby zdefiniować system dla własnej aplikacji. Dialog głosowy – tzn. słowo aktywujące, za którego pomocą system zwraca uwagę na wprowadzanie danych – dopuszczalne polecenia i ich parametry są kompilowane w narzędziu internetowym jako dane tekstowe. Podczas wprowadzania danych odbywa się już pierwszy etap przetwarzania: grafemy, czyli wpisane znaki, są przekształcane w fonemy, czyli najmniejsze akustyczne składniki mowy. Dlatego ważne jest, aby najpierw określić język docelowy. Na przykład wprowadzone znaki „SIZE” są poprawnie fonowane jako „seihs” w języku angielskim. Jeśli ustawiony byłby język niemiecki, wynikiem byłoby „Sie-Zä”.

Po zdefiniowaniu wszystkich słów algorytmy oparte na uczeniu maszynowym i sztucznej inteligencji są wykorzystywane do przekształcania zdefiniowanych zasobów językowych w model statystyczny i semantyczny do pobrania. Następnie plik z wynikami jest pobierany na platformę docelową i uruchamiany. Wówczas można wyciągnąć wtyczkę sieciową – produkt końcowy działa autonomicznie.

Wymagania systemowe

Zasadniczo obsługiwanych jest kilka systemów operacyjnych, np. Linux, Windows, Android, iOS. Oprogramowanie działa na procesorach ARM (od ARMv7) i X86, a wymagana moc obliczeniowa wynosi od 400 MIPS do przetwarzania w czasie rzeczywistym na każdy aktywny język. Jeśli na przykład urządzenie ma być obsługiwane jednocześnie w języku niemieckim i angielskim, muszą zostać uruchomione dwie instancje rozpoznawania. Model języka zajmuje co najmniej 6 MB na język, przy czym wykorzystywanych jest około 16 MB pamięci głównej. Prosta kontrola poleceń z 10 słowami wymaga około 10 kB, bardziej złożone aplikacje z 1000 słów zajmują 500 kB.

Oprogramowanie współpracuje z procesorem głównym systemu i może być na nim uruchamiane. Komunikacja z własnym sprzętem odbywa się za pomocą protokołu MQTT w modelu publish/subscribe z brokerem. Rozpoznane polecenia są pakietowane w strukturę JSON, a treść polecenia jest przetwarzana semantycznie. Na tej podstawie każdy system można wyposażyć w sterowanie głosem.

Sygnał wejściowy jest ważny

W codziennej rozmowie geometria głowy z rozmieszczeniem uszu po obu stronach głowy i małżowinami usznymi pomaga nam odfiltrować spośród wielu głosów ten, który chcemy usłyszeć. W rozwiązaniu elektronicznym w celu zwiększenia zrozumiałości mowy stosuje się redukcję hałasu. Jeśli mówca nie znajduje się blisko mikrofonu, matryca mikrofonowa może zapewnić dalsze usprawnienie, wykorzystując kształtowanie wiązki w celu uzyskania wysokiego poziomu tłumienia rozpraszających szumów i sygnałów poza osią główną, skutecznie blokując hałas z otoczenia.

Wniosek: sterowanie głosem nadaje nowy wymiar systemom HMI. Równolegle do interfejsu GUI działa interfejs SUI (Speech User Interface). Praca w trybie off-line, tzn. kontrola mowy realizowana lokalnie na procesorze, nie tylko zapewnia poufność danych, ale także zwiększa niezawodność. Nie wymaga bowiem połączenia z internetem i dostępności serwera. Dzięki 30 wariantom mowy, naturalnemu wprowadzaniu mowy, niezależności od mówcy i wysokiej odporności nawet w obecności hałasu system umożliwia zwiększenie produktywności, komfortu i pozwala na obsługę bez użycia rąk lub wzroku.