Przejdź do treści Przejdź do stopki
Aktualności

Zaczynamy dostrzegać potencjał głosu

Kolorowa grafika ilustracyjna. Po lewej stronie widoczny niepełny profil twarzy. Od ust rozciąga się graficzny wykres fali dźwiękowej.

fot. Dreamstime

Zaczynamy dostrzegać potencjał głosu

Wystarczy, że wypowiesz kilka zdań, a aplikacja w telefonie stwierdzi, czy powinieneś zasięgnąć porady kardiologa – dzięki pracom prowadzonym w AGH tak może wyglądać przyszłość diagnozowania zaburzeń rytmu serca.

Głos może być wysoki, albo niski, nieprzyjemny albo kojący, może być szeptem albo krzykiem, drżeć albo się załamywać. Nieodłączną częścią każdej wypowiedzi jest także intonacja, prędkość wypowiadania kolejnych głosek i słów, a także częstotliwość i głębokość branych wdechów. W końcu to także to, czego nie możemy usłyszeć – ucięte słowa czy zdania i dźwięki o częstotliwości niesłyszalnej dla człowieka.

Badania pokazują, że te cechy mogą kryć istotne wskazówki dotyczące stanu zdrowia. Dzięki specjalistycznym metodom przetwarzania głosu, naukowcy są w stanie z dużym prawdopodobieństwem wskazać zmiany współwystępujące nie tylko z chorobami oddechowymi, lecz także z chorobą Alzheimera, chorobą Parkinsona czy nadpobudliwością psychoruchową. Na badania w tym zakresie z nadzieją spoglądają także psychologowie i psychiatrzy, którzy poszukują obiektywnych metod oceny stanu zdrowia pacjentów, u których podejrzewane jest jakieś zaburzenie, np. depresja. Co ważne, mają ku temu podstawy, bo możliwości diagnostyczne w zakresie przetwarzania głosu dynamicznie się poszerzają.

Kiedy zaczynałam pisać doktorat, w literaturze naukowej było relatywnie niewiele publikacji dotyczących zastosowania technologii głosowych w kontekście tzw. digital therapeutics, czyli terapii cyfrowych i diagnostyki cyfrowej za pomocą głosu, ale przede wszystkim świat komercyjny nie był tak otwarty na zastosowania tych technologii. Myślę, że to się zmieniło, kiedy pojawił się COVID — mówi dr inż. Daria Hemmerling z Wydziału Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej — Gdy nie mieliśmy możliwości widzenia się twarzą w twarz w gabinecie lekarskim, to okazało się, że zdecydowana część medycyny może zostać przeniesiona na kanał słuchowy, konsultacje mogą odbywać się jedynie przez telefony. Teraz już przyzwyczailiśmy się do tego, że niektóre usługi mogą być tak świadczone – to po prostu usprawnia procesy. Stąd coraz więcej firm zaczęło się tym interesować, a to pociągnęło za sobą zaangażowanie instytucji naukowych, bo żeby wprowadzić coś, co będzie skuteczne, to musimy to najpierw przebadać.

Co nam mówią głosy

Wypowiadanie się jest złożoną czynnością, która wymaga współpracy wielu mięśni i narządów, oraz angażuje rozległe obszary mózgu, dlatego może być wskaźnikiem problemów w kilku różnych obszarach funkcjonowania. Stąd to właśnie zmiany w głosie są pierwszym alarmującym objawem, który mogą zauważyć bliscy osób zmagających się z różnymi chorobami, np. wynikającymi z postępujących zmian neurodegeneracyjnych. Metody analizy głosu rozwijane przez naukowców opierają się na tym samym mechanizmie, ale cechuje je znacznie wyższa czułość i precyzja. Podczas poprzednich badań dr Darii Hemmerling udało się zidentyfikować pewne cechy głosu, które ulegają zmianie w rozwoju choroby Parkinsona. Te cechy to jedne z tzw. biomarkerów – właściwości, które podlegają obiektywnym pomiarom, i których zmiany odzwierciedlają przebieg procesów biologicznych. Prace te są kontynuowane w finansowanym ze źródeł Narodowego Centrum Badań i Rozwoju programie LIDER, którego dr Daria Hemmerling jest kierowniczką.

W najnowszym projekcie naukowczyni z AGH będzie kontynuowała prace związane z głosem, ale skupi się na innej kategorii problemów zdrowotnych – tym razem będą to problemy kardiologiczne. Na projekt „Kwantyfikacja biomarkerów głosowych wśród pacjentów z niewydolnością serca” nagrodzony w konkursie MINIATURA, Narodowe Centrum Nauki przyznało dr inż. Hemmerling finansowanie w wysokości 48 400 złotych.

Ten grant jest po to, żebyśmy mogli pokazać na polskiej populacji, że te biomarkery głosowe są skuteczne i mogą obiektywnie wskazywać na nieprawidłowości pojawiające się w wyniku wystąpienia jakichś zaburzeń, w tym wypadku zaburzeń rytmu serca. Chcemy zbadać, które biomarkery mogą różnicować osoby zdrowe i chore, a jeżeli już znajdziemy te biomarkery, to ustalić jaki jest proces rozwoju choroby i co się tam zaczyna dziać, bo to nie jest jeszcze do końca zbadane — mówi kierowniczka projektu.

Pomysł na badania zrodził się w trakcie innego grantu, realizowanego w kooperacji z firmą Techmo, która ma swoje korzenie w AGH.

Współpracując z nimi, widziałam potencjał, jaki tam jest i jakie są też trudności, dlatego udało mi się nawiązać naprawdę wspaniałą współpracę z Górnośląskim Centrum Medycznym w Katowicach i jego lekarzami. W szczególności z doktorem nauk medycznych Tomaszem Jadczykiem, który niesie niesamowitą energię i wiarę w to, że technologie cyfrowe mogą usprawnić świat medycyny – przede wszystkim pomóc ludziom, ale także ułatwić diagnostykę lekarzom. Z doktorem Tomaszem Jadczykiem wspólnie widzimy ten potencjał diagnostyki głosowej – on od strony medycznej, a ja – technologicznej – z zapałem mówi dr Hemmerling.

W ramach grantu zostanie przebadanych 100 pacjentów z oddziału kardiologicznego Górnośląskiego Centrum Medycznego w Katowicach. To tam znajduje się stworzona na potrzeby takich zastosowań komora bezechowa, czyli pomieszczenie zaprojektowane w taki sposób, by maksymalnie zredukować w nim pogłos. Dzięki temu dźwięk na nagraniach nie będzie zniekształcony przez właściwości pomieszczenia, w którym były wykonywane, a potencjał specjalistycznego sprzętu nagrywającego zostanie w pełni wykorzystany i umożliwi osiągnięcie najlepszej możliwej do pozyskania w tym momencie jakości dźwięku. To niezwykle istotne dla zrealizowania założeń projektu badawczego, który koncentruje się na niewielkich odchyleniach w przebiegu produkcji mowy.

Pierwsze skrzypce odegrają samogłoski

Uznaje się, że sygnał, jaki generują ludzie w trakcie wypowiadania samogłosek jest stabilny, a zaburzyć go może właśnie proces chorobowy. Z tego powodu analizę wypowiedzi tych dźwięków często stosuje się w medycynie. Będzie ona także pierwszym krokiem w badaniach, które przeprowadzi zespół dr Hemmerling. Następnie, aby sprawdzić wymowę, a jednocześnie zminimalizować stres związany z uczestnictwem w procedurze badawczej i przełamać dystans pomiędzy nieznajomymi uczestnikami i osobami prowadzącymi badania, pacjenci będą opowiadać o prostym tekście, z którym będą mieli szansę zapoznać się chwilę wcześniej. Co ciekawe, treść tekstu będzie opowiadała o życiu, więc na podstawie odpowiedzi badanych będzie można także wnioskować o tym, co ich interesuje i jaki prowadzą styl życia – a ten odgrywa niebagatelną rolę w ryzyku wystąpienia chorób cywilizacyjnych, w tym serca. Na koniec uczestnicy usłyszą otwarte, emocjonalnie neutralne pytanie. Wszystkie wypowiedzi badanych będą nagrywane, by później naukowcy mogli wnikliwie przeanalizować ich rozmaite aspekty.

To mowa swobodna, dzięki czemu zdobędziemy informacje o tym, czy te osoby się zmęczyły po pewnym wysiłku głosowym, czy zaczynają robić jakieś dłuższe przerwy albo utrzymują intonację na jednym poziomie, czy robią dużo zacięć, albo czy ucinają konkretne spółgłoski, na przykład na końcach wyrazów, bo takie rzeczy też mogą wskazywać na różne rozwijające się choroby. Tak samo jak to, czy zakres słów wypowiadających się osób jest ograniczony, czy powtarzają jakieś elementy wyrazów lub całe wyrazy – to wszystko może świadczyć o zaburzeniach – wyjaśnia dr Hemmerling – (…) Myślę, że w kontekście zaburzeń rytmu serca to wszystko trzeba sprawdzić – zmiany częstotliwości, amplitud, siły głosu, ilość i długość przerw oddechowych, tempo wypowiedzi. To mogą być wskaźniki.

Sztuczna inteligencja na tropie rytmu serca

Właściwy problem badawczy rozstrzygnie się podczas analizy zapisanych w cyfrowej formie nagrań. Pierwszy etap tego procesu przetwarzania sygnału nazywa się parametryzacją i polega na wydobywaniu konkretnych parametrów z sygnału głosu.

Te parametry pozwalają na odzwierciedlenie tego, jak my te dźwięki słyszymy, za pomocą ciągu liczb. A ten potrafimy zinterpretować – opowiada o planach badawczych dr Hemmerling – Tak naprawdę jest szereg różnych parametrów związanych z energią, z obwiednią samego sygnału, z melodyjnością, z funkcjonowaniem organu mowy i współdziałaniem różnych organów podczas procesu jej generowania. Patrząc całościowo, ten system robi się bardzo skomplikowany. Wskazanie w tej multiparametrycznej przestrzeni takich cech, które będą wskazywały na rozwijające się i toczące zmiany chorobowe, będzie kamieniem milowym tego projektu.

W tym kluczowym zadaniu badaczy będą wspomagać lekarze oraz algorytmy. Przeprowadzenie standardowych badań medycznych przez kardiologa pozwoli na rozpoznanie procesów chorobowych i określenie ich ewentualnego zaawansowania. Rolą algorytmów, czyli „przepisów” na przetwarzanie danych, będzie z kolei poszukiwanie korelacji pomiędzy zmianami sygnału głosowego, a określonymi zmianami chorobowymi. Innymi słowy chodzi o to, by sztuczna inteligencja pomogła nam ustalić, które aspekty głosu świadczą o toczących się procesach chorobowych, a tym samym, które z nich mogłyby stanowić wskaźniki diagnostyczne.

Jako ludzie nie potrafimy zwizualizować sobie przed oczami dziesięciu wymiarów. Algorytmy pozwalają nam zredukować takie wielowymiarowe przestrzenie na przykład do trzech wymiarów, które już przecież możemy sobie wyobrazić.

Takich algorytmów stworzonych z myślą o różnych celach jest bardzo dużo, a ich wybór będzie zależał między innymi od ilości danych, które uda się zgromadzić w trakcie nagrywania wypowiedzi. Najlepsze efekty dałoby zastosowanie modeli uczenia głębokiego, czyli takich, które gromadzą dane z wielu różnych źródeł i samodzielnie uczą się wyciągać z nich wnioski, ale ich zastosowanie może nie być możliwe, ze względu na niedostateczną ilość zgromadzonych danych.

Być może zbliżymy się do modeli uczenia głębokiego, albo pozostaniemy na metodach hybrydowych, czyli takich, gdzie łączymy uczenie głębokie z metodami manualnymi, czyli takimi, że to my będziemy wyznaczać, gdzie jest jakaś granica wartości, która może wskazywać już na patologie – mówi dr Hemmerling.  

Można zadać pytanie: gdyby tylko udało się znaleźć takie biomarkery głosowe, to czy od razu możliwa byłaby diagnoza chorób kardiologicznych?

Myślę, że wcześniej konieczna byłaby jeszcze walidacja, bo stu pacjentów, których zbadamy w ramach grantu, to nie jest dużo. Musielibyśmy później pomyśleć, w jaki sposób zebrać jeszcze większą grupę badanych. Nasza próbka może udowodnić pewien kierunek działań, i to jest piękne, natomiast myślę, że potem pomyślimy o drodze wdrożeniowej. Być może umożliwi nam ona stworzenie aplikacji albo osobnego urządzenia, które nie byłoby powiązane z telefonem, ale mogłoby zostać rozpropagowane wśród pacjentów. Sądzę, że badanie można by wtedy ubrać w jakąś grę, albo na ekranie mógłby pojawić się jakiś awatar odzwierciedlający miłe wspomnienie, który przeprowadziłby nas przez całą procedurę. Korzystanie z takich metod diagnostycznych mogłoby wtedy nawet sprawiać nam przyjemność.

Lepiej zapobiegać, ale będzie można także lepiej leczyć

Badania dr Hemmerling, na które przyznano grant, są badaniami podstawowymi, a więc powinny poszerzać wiedzę w danym obszarze, ale ich wyniki niekoniecznie muszą przekładać się na możliwości zastosowania w praktyce. Tym niemniej w przypadku biomarkerów głosowych takich zastosowań nie brakuje, a stworzenie aplikacji jest tylko jednym z wielu. Można się spodziewać, że każde z nich będzie niosło znaczące korzyści. Przede wszystkim to szybkość przeprowadzania diagnostyki – nie dość, że samo badanie diagnostyczne mogłoby odbywać się w zaledwie parę minut, to wstępne rozpoznanie nie wymagałoby obecności lekarza. Stanowiłoby to ogromne odciążenie dla systemu opieki zdrowotnej, bo do lekarza mogliby zgłaszać się pacjenci ze wstępną diagnozą, co przełożyłoby się na skrócenie kolejek. Jednocześnie możliwe stałoby się częstsze monitorowanie dotychczasowych pacjentów, co poprawiłoby jakość opieki przy niewielkim nakładzie czasu. Jeszcze większe nadzieje wiążą się z etapem, na którym rozpoznaje się chorobę – całkiem możliwe, że biomarkery głosowe pozwoliłyby na wykrywanie choroby znacznie wcześniej, niż da się to osiągnąć za pomocą dotychczas stosowanych metod. Wcześniej rozpoznana choroba, to większe szanse na całkowite wyleczenie i zmniejszenie liczby koniecznych do przyjęcia lekarstw i wizyt u lekarza – czyli odciążenie służby zdrowia w dwójnasób.

To, co mnie najbardziej interesuje i „kręci”, to wykrywanie momentu, w którym zaczynają powstawać zmiany miażdżycowe. To jest coś, co dotyka młode osoby: podwyższa się u nich poziom cholesterolu, ale jeszcze nie są świadomi, że powstają pierwsze objawy miażdżycy. Jako osoby niedoświadczone, bez praktyki lekarskiej, nie mogą tego zauważyć, ale też nie badają się regularnie – zwłaszcza ci, którzy mają małe dzieci – dzieli się swoimi zmartwieniami dr Hemmerling i podsumowuje – Mam nadzieję, że w przyszłości będziemy w stanie „zaświecić żółtą lampkę” nad głowami osób, u których rozpoczynają się takie procesy i powiedzieć: zastanów się i skup się teraz na sobie.

Stopka