Nowe publikacje
Głos jako analiza: wczesne sygnały raka i zmian łagodnych
Ostatnia recenzja: 18.08.2025

Cała zawartość iLive jest sprawdzana medycznie lub sprawdzana pod względem faktycznym, aby zapewnić jak największą dokładność faktyczną.
Mamy ścisłe wytyczne dotyczące pozyskiwania i tylko linki do renomowanych serwisów medialnych, akademickich instytucji badawczych i, o ile to możliwe, recenzowanych badań medycznych. Zauważ, że liczby w nawiasach ([1], [2] itd.) Są linkami do tych badań, które można kliknąć.
Jeśli uważasz, że któraś z naszych treści jest niedokładna, nieaktualna lub w inny sposób wątpliwa, wybierz ją i naciśnij Ctrl + Enter.

Naukowcy z Oregon Health & Science University przeanalizowali nagrania mowy z nowego, publicznie dostępnego zbioru danych Bridge2AI-Voice i odkryli prostą cechę akustyczną, która może ujawnić patologię fałdów głosowych. Mowa o stosunku harmonicznych do szumu (HNR) – stosunku „dźwięków harmonicznych” do szumu. Jego poziom i zmienność odróżniały głosy osób z rakiem krtani i łagodnymi zmianami od głosów osób zdrowych i niektórych innych zaburzeń głosu. Efekt ten był szczególnie widoczny u mężczyzn cispłciowych; istotność statystyczna była niewystarczająca w przypadku kobiet – autorzy obwiniają małą liczebność próby i postulują rozszerzenie danych. Praca została opublikowana w formie krótkiego raportu w czasopiśmie Frontiers in Digital Health.
Tło badania
- Po co w ogóle szukać „markerów głosowych”? Chrypka to częsta dolegliwość. Przyczyny są zróżnicowane: od przeziębień i refluksu, po guzki/polipy i raka krtani. Obecnie droga do diagnozy prowadzi przez wizytę u laryngologa i endoskopię (za pomocą kamery w nosie/gardle). Jest ona dokładna, ale nie zawsze dostępna od ręki i nie nadaje się do samodzielnego monitorowania w domu. Konieczne jest wstępne badanie przesiewowe: prosty sposób na ustalenie, kto powinien najpierw udać się do lekarza.
- Czym jest biomarker głosu? Mowa to sygnał, który można łatwo zarejestrować telefonem. Jej „wzorzec” pozwala ocenić drgania fałdów głosowych. Uszkodzenia powodują nierównomierność wibracji: więcej „hałasu” i mniej „muzyki”.
- Dlaczego nowe zbiory danych są ważne? Wcześniej tego typu prace opierały się na małych, „domowych” próbkach – modele były kruche. Bridge2AI-Voice to obszerny, wieloośrodkowy, etycznie zebrany zbiór nagrań audio powiązanych z diagnozami. Został stworzony jako „wspólny poligon doświadczalny” do ostatecznego trenowania i testowania algorytmów na dużych i heterogenicznych danych.
- Gdzie są główne trudności?
- Głos zmienia się pod wpływem mikrofonu, hałasu w pomieszczeniu, zimna, palenia, języka, płci i wieku.
- Tradycyjnie danych dotyczących kobiet jest mniej, a głos żeński występuje częściej — wskaźniki zachowują się inaczej.
- Żadne badanie „domowe” nie zastąpi badania ani nie postawi diagnozy – co najwyżej pomoże podjąć decyzję: „czy konieczna jest pilna wizyta u laryngologa?”
- Dlaczego klinika i pacjenci tego potrzebują? Jeśli osoby z wysokim ryzykiem wystąpienia węzłów chłonnych/guzów będą mogły zostać wybrane do priorytetowej wizyty w ramach krótkiej wizyty, przyspieszy to diagnostykę, zmniejszy liczbę niepotrzebnych skierowań i zapewni narzędzie do samokontroli między wizytami (po operacji, w trakcie terapii).
- Dokąd to powinno prowadzić: Do sprawdzonych aplikacji/modułów telemedycznych, które:
- napisz przemówienie zgodnie ze standardem (fraza + przeciągnięte „aaa”),
- obliczanie podstawowych cech (HNR, drgania, migotanie, F0),
- wydać zalecenie kontaktu ze specjalistą, jeśli profil jest niepokojący,
- utrzymać dynamikę po leczeniu.
Pomysł jest prosty: „podać telefon do ucha laryngologa” – nie po to, by postawić diagnozę, ale po to, by nie przegapić tych, którzy potrzebują szybkiej pomocy twarzą w twarz.
Co dokładnie zrobili?
- Udostępniliśmy jako pierwsi wieloośrodkowy, etycznie zebrany zbiór danych Bridge2AI-Voice, sztandarowy projekt NIH, w którym nagrania głosu są łączone z informacjami klinicznymi (diagnozami, kwestionariuszami itp.).
- Przygotowano dwie próbki analityczne:
- "rak krtani / węzły chłonne łagodne / zdrowy";
- „rak lub łagodne guzki” a dysfonia spastyczna i porażenie fałdów głosowych (inne częste przyczyny chrypki).
- Podstawowe cechy głosu zidentyfikowano na podstawie standaryzowanych fraz: ton podstawowy (F0), drżenie, migotanie i HNR, a grupy porównano za pomocą statystyki nieparametrycznej. Wynik: najbardziej stabilne różnice wystąpiły w HNR i F0, przy czym HNR i jego zmienność najlepiej oddzielały zmiany łagodne od normy i raka krtani. Sygnały te były bardziej wyraźne u mężczyzn.
Dlaczego to jest ważne?
- Wczesne badania przesiewowe bez sondy. Obecnie droga do diagnozy często prowadzi przez endoskopię nosa i gardła, a w razie podejrzenia – biopsję. Jeśli proste cechy akustyczne w połączeniu ze sztuczną inteligencją pozwolą na priorytetowe traktowanie osób wymagających endoskopii, pacjenci będą szybciej trafiać do laryngologa, a liczba niepotrzebnych skierowań zmniejszy się. To uzupełnienie, a nie zastąpienie lekarza.
- Big data dla głosu. Bridge2AI-Voice to wyjątkowy projekt, w którym głos jest gromadzony za pomocą jednolitych protokołów i powiązany z diagnozami; dane są dostępne dla badaczy za pośrednictwem PhysioNet / Health Data Nexus. Przyspiesza to rozwój wiarygodnych biomarkerów głosu zamiast „cudownych aplikacji” na małych próbkach.
Czym jest HNR?
Kiedy mówimy, fałdy głosowe wibrują i tworzą alikwoty (harmoniczne). Jednak wibracje te nigdy nie są idealne – w sygnale zawsze występuje szum. HNR to po prostu o ile więcej „muzyki” jest w głosie niż „syczenia”. Gdy fałdy głosowe są uszkodzone, wibracje stają się mniej równomierne – pojawia się więcej szumu, HNR spada, a jego skoki (zmienność) rosną. To jest wzorzec, który dostrzegli autorzy.
Ważne zastrzeżenia
- To analiza pilotażowa, eksploracyjna: bez walidacji klinicznej, z ograniczeniami dotyczącymi próby kobiet – więc ich efekty nie były istotne. Potrzebne są większe i bardziej zróżnicowane dane oraz „wypróbowanie” modeli w różnych klinikach i w różnych językach.
- Głos jest wielowartościowy: wpływa na niego przeziębienie, palenie, refluks, mikrofon, hałas w pomieszczeniu. Każdy „domowy test” powinien uwzględniać kontekst – i nadal służyć jako filtr do skierowania do laryngologa, a nie jako diagnoza na zawołanie.
Co dalej?
- Rozszerz zbiór danych (w tym dla kobiet i grup wiekowych), ustandaryzuj zadania i akustykę (czytanie frazy, przedłużające się „aaa” itp.), wypróbuj modele multimodalne (głos + objawy/czynniki ryzyka z kwestionariusza).
- Powiąż oznaki akustyczne z wynikami badań (endoskopia, stroboskopia) i dynamiką po leczeniu, dzięki czemu profil HNR może być również wykorzystywany do monitorowania.
- Kontynuuj „otwartą naukę”: Bridge2AI-Voice już publikuje wersje zestawu danych i narzędzi - to szansa na szybkie dotarcie do prawdziwych pilotów w klinikach.
Wniosek
Możliwe jest „usłyszenie” problemów ze strunami głosowymi na podstawie głosu – i być może wcześniejsze skierowanie pacjenta do odpowiedniego specjalisty. Na razie jest to dość oczywista wskazówka (HNR i jego zmienność), ale dzięki dużym otwartym danym biomarkery głosu mają wreszcie szansę stać się wiarygodnym narzędziem przesiewowym.
Źródło: Jenkins P. i in. Głos jako biomarker: analiza eksploracyjna łagodnych i złośliwych zmian fałdów głosowych. Frontiers in Digital Health, 2025 (zaakceptowano do publikacji). Dane — Bridge2AI-Voice (NIH/PhysioNet).