^
A
A
A

Głos jako analiza: wczesne sygnały raka i zmian łagodnych

 
Alexey Kryvenko, Recenzent medyczny
Ostatnia recenzja: 18.08.2025
 
Fact-checked
х

Cała zawartość iLive jest sprawdzana medycznie lub sprawdzana pod względem faktycznym, aby zapewnić jak największą dokładność faktyczną.

Mamy ścisłe wytyczne dotyczące pozyskiwania i tylko linki do renomowanych serwisów medialnych, akademickich instytucji badawczych i, o ile to możliwe, recenzowanych badań medycznych. Zauważ, że liczby w nawiasach ([1], [2] itd.) Są linkami do tych badań, które można kliknąć.

Jeśli uważasz, że któraś z naszych treści jest niedokładna, nieaktualna lub w inny sposób wątpliwa, wybierz ją i naciśnij Ctrl + Enter.

12 August 2025, 08:13

Naukowcy z Oregon Health & Science University przeanalizowali nagrania mowy z nowego, publicznie dostępnego zbioru danych Bridge2AI-Voice i odkryli prostą cechę akustyczną, która może ujawnić patologię fałdów głosowych. Mowa o stosunku harmonicznych do szumu (HNR) – stosunku „dźwięków harmonicznych” do szumu. Jego poziom i zmienność odróżniały głosy osób z rakiem krtani i łagodnymi zmianami od głosów osób zdrowych i niektórych innych zaburzeń głosu. Efekt ten był szczególnie widoczny u mężczyzn cispłciowych; istotność statystyczna była niewystarczająca w przypadku kobiet – autorzy obwiniają małą liczebność próby i postulują rozszerzenie danych. Praca została opublikowana w formie krótkiego raportu w czasopiśmie Frontiers in Digital Health.

Tło badania

  • Po co w ogóle szukać „markerów głosowych”? Chrypka to częsta dolegliwość. Przyczyny są zróżnicowane: od przeziębień i refluksu, po guzki/polipy i raka krtani. Obecnie droga do diagnozy prowadzi przez wizytę u laryngologa i endoskopię (za pomocą kamery w nosie/gardle). Jest ona dokładna, ale nie zawsze dostępna od ręki i nie nadaje się do samodzielnego monitorowania w domu. Konieczne jest wstępne badanie przesiewowe: prosty sposób na ustalenie, kto powinien najpierw udać się do lekarza.
  • Czym jest biomarker głosu? Mowa to sygnał, który można łatwo zarejestrować telefonem. Jej „wzorzec” pozwala ocenić drgania fałdów głosowych. Uszkodzenia powodują nierównomierność wibracji: więcej „hałasu” i mniej „muzyki”.
  • Dlaczego nowe zbiory danych są ważne? Wcześniej tego typu prace opierały się na małych, „domowych” próbkach – modele były kruche. Bridge2AI-Voice to obszerny, wieloośrodkowy, etycznie zebrany zbiór nagrań audio powiązanych z diagnozami. Został stworzony jako „wspólny poligon doświadczalny” do ostatecznego trenowania i testowania algorytmów na dużych i heterogenicznych danych.
  • Gdzie są główne trudności?
    • Głos zmienia się pod wpływem mikrofonu, hałasu w pomieszczeniu, zimna, palenia, języka, płci i wieku.
    • Tradycyjnie danych dotyczących kobiet jest mniej, a głos żeński występuje częściej — wskaźniki zachowują się inaczej.
    • Żadne badanie „domowe” nie zastąpi badania ani nie postawi diagnozy – co najwyżej pomoże podjąć decyzję: „czy konieczna jest pilna wizyta u laryngologa?”
  • Dlaczego klinika i pacjenci tego potrzebują? Jeśli osoby z wysokim ryzykiem wystąpienia węzłów chłonnych/guzów będą mogły zostać wybrane do priorytetowej wizyty w ramach krótkiej wizyty, przyspieszy to diagnostykę, zmniejszy liczbę niepotrzebnych skierowań i zapewni narzędzie do samokontroli między wizytami (po operacji, w trakcie terapii).
  • Dokąd to powinno prowadzić: Do sprawdzonych aplikacji/modułów telemedycznych, które:
    1. napisz przemówienie zgodnie ze standardem (fraza + przeciągnięte „aaa”),
    2. obliczanie podstawowych cech (HNR, drgania, migotanie, F0),
    3. wydać zalecenie kontaktu ze specjalistą, jeśli profil jest niepokojący,
    4. utrzymać dynamikę po leczeniu.

Pomysł jest prosty: „podać telefon do ucha laryngologa” – nie po to, by postawić diagnozę, ale po to, by nie przegapić tych, którzy potrzebują szybkiej pomocy twarzą w twarz.

Co dokładnie zrobili?

  • Udostępniliśmy jako pierwsi wieloośrodkowy, etycznie zebrany zbiór danych Bridge2AI-Voice, sztandarowy projekt NIH, w którym nagrania głosu są łączone z informacjami klinicznymi (diagnozami, kwestionariuszami itp.).
  • Przygotowano dwie próbki analityczne:
    1. "rak krtani / węzły chłonne łagodne / zdrowy";
    2. „rak lub łagodne guzki” a dysfonia spastyczna i porażenie fałdów głosowych (inne częste przyczyny chrypki).
  • Podstawowe cechy głosu zidentyfikowano na podstawie standaryzowanych fraz: ton podstawowy (F0), drżenie, migotanie i HNR, a grupy porównano za pomocą statystyki nieparametrycznej. Wynik: najbardziej stabilne różnice wystąpiły w HNR i F0, przy czym HNR i jego zmienność najlepiej oddzielały zmiany łagodne od normy i raka krtani. Sygnały te były bardziej wyraźne u mężczyzn.

Dlaczego to jest ważne?

  • Wczesne badania przesiewowe bez sondy. Obecnie droga do diagnozy często prowadzi przez endoskopię nosa i gardła, a w razie podejrzenia – biopsję. Jeśli proste cechy akustyczne w połączeniu ze sztuczną inteligencją pozwolą na priorytetowe traktowanie osób wymagających endoskopii, pacjenci będą szybciej trafiać do laryngologa, a liczba niepotrzebnych skierowań zmniejszy się. To uzupełnienie, a nie zastąpienie lekarza.
  • Big data dla głosu. Bridge2AI-Voice to wyjątkowy projekt, w którym głos jest gromadzony za pomocą jednolitych protokołów i powiązany z diagnozami; dane są dostępne dla badaczy za pośrednictwem PhysioNet / Health Data Nexus. Przyspiesza to rozwój wiarygodnych biomarkerów głosu zamiast „cudownych aplikacji” na małych próbkach.

Czym jest HNR?

Kiedy mówimy, fałdy głosowe wibrują i tworzą alikwoty (harmoniczne). Jednak wibracje te nigdy nie są idealne – w sygnale zawsze występuje szum. HNR to po prostu o ile więcej „muzyki” jest w głosie niż „syczenia”. Gdy fałdy głosowe są uszkodzone, wibracje stają się mniej równomierne – pojawia się więcej szumu, HNR spada, a jego skoki (zmienność) rosną. To jest wzorzec, który dostrzegli autorzy.

Ważne zastrzeżenia

  • To analiza pilotażowa, eksploracyjna: bez walidacji klinicznej, z ograniczeniami dotyczącymi próby kobiet – więc ich efekty nie były istotne. Potrzebne są większe i bardziej zróżnicowane dane oraz „wypróbowanie” modeli w różnych klinikach i w różnych językach.
  • Głos jest wielowartościowy: wpływa na niego przeziębienie, palenie, refluks, mikrofon, hałas w pomieszczeniu. Każdy „domowy test” powinien uwzględniać kontekst – i nadal służyć jako filtr do skierowania do laryngologa, a nie jako diagnoza na zawołanie.

Co dalej?

  • Rozszerz zbiór danych (w tym dla kobiet i grup wiekowych), ustandaryzuj zadania i akustykę (czytanie frazy, przedłużające się „aaa” itp.), wypróbuj modele multimodalne (głos + objawy/czynniki ryzyka z kwestionariusza).
  • Powiąż oznaki akustyczne z wynikami badań (endoskopia, stroboskopia) i dynamiką po leczeniu, dzięki czemu profil HNR może być również wykorzystywany do monitorowania.
  • Kontynuuj „otwartą naukę”: Bridge2AI-Voice już publikuje wersje zestawu danych i narzędzi - to szansa na szybkie dotarcie do prawdziwych pilotów w klinikach.

Wniosek

Możliwe jest „usłyszenie” problemów ze strunami głosowymi na podstawie głosu – i być może wcześniejsze skierowanie pacjenta do odpowiedniego specjalisty. Na razie jest to dość oczywista wskazówka (HNR i jego zmienność), ale dzięki dużym otwartym danym biomarkery głosu mają wreszcie szansę stać się wiarygodnym narzędziem przesiewowym.

Źródło: Jenkins P. i in. Głos jako biomarker: analiza eksploracyjna łagodnych i złośliwych zmian fałdów głosowych. Frontiers in Digital Health, 2025 (zaakceptowano do publikacji). Dane — Bridge2AI-Voice (NIH/PhysioNet).

You are reporting a typo in the following text:
Simply click the "Send typo report" button to complete the report. You can also include a comment.