Eye Exam Child. Health Care Check-Up for Little Girl at Eye Clinic with Slit Lamp Machine

Ocena skuteczności dużych modeli językowych w podejmowaniu decyzji terapeutycznych dotyczących wad refrakcji u dzieci

Współfinansowane ze środków Ministerstwa Edukacji i Nauki na podstawie umowy nr. POPUL/SN/0475/2023/01  w ramach projektu pt.:  Kampania edukacyjna „Sztuczna inteligencja w okulistyce”

Kategoria: Streszczenia

Omówienie artykułu pt. „Ocena skuteczności dużych modeli językowych w podejmowaniu decyzji terapeutycznych dotyczących wad refrakcji u dzieci” (Evaluating the Efficacy of Large Language Models in Guiding Treatment Decisions for Pediatric Refractive Error) opublikowanego w Ophthalmology and Therapy w 2025 roku [1].

Prof. dr hab. med. Andrzej Grzybowski
Kierownik Katedry Okulistyki, Uniwersytet Warmińsko-Mazurski, Olsztyn
Kierownik Instytutu Okulistycznych Badań Naukowych, Fundacja Okulistyka 21, Poznań

Współfinansowane ze środków Ministerstwa Edukacji i Nauki na podstawie umowy nr. POPUL/SN/0475/2023/01 w ramach projektu pt.: Kampania edukacyjna „Sztuczna inteligencja w okulistyce”

W ostatnich latach sztuczna inteligencja, a w szczególności modele językowe dużej skali (LLM), zaczęły wkraczać do obszaru medycyny klinicznej, oferując wsparcie w analizie danych, podejmowaniu decyzji i rekomendowaniu terapii. Artykuł Kanga i wsp. stanowi jedno z pierwszych systematycznych badań poświęconych ocenie skuteczności LLM w kierowaniu decyzjami terapeutycznymi w zakresie wad refrakcji u dzieci. Zagadnienie to ma szczególne znaczenie, ponieważ wczesne i prawidłowe interwencje w dzieciństwie determinują jakość widzenia w całym życiu, a narastająca globalna epidemia krótkowzroczności czyni z tego problemu jedno z największych wyzwań zdrowia publicznego XXI wieku.

Autorzy wychodzą od kontekstu epidemiologicznego: w wielu krajach Azji Wschodniej ponad 80% dzieci i młodzieży cierpi na krótkowzroczność, a około 20% rozwija jej wysoką postać, obarczoną ryzykiem poważnych powikłań, takich jak odwarstwienie siatkówki czy jaskra. Podobne trendy, choć mniej nasilone, obserwuje się w Europie i Ameryce Północnej. W odpowiedzi na to rosnące wyzwanie rozwinięto różne interwencje, od okularów przez soczewki kontaktowe, po farmakoterapię niskimi dawkami atropiny. Każda z tych metod wymaga jednak starannej oceny klinicznej, uwzględniającej ostrość wzroku, długość osiową gałki ocznej, wiek pacjenta czy indywidualne czynniki ryzyka. W praktyce oznacza to duże zapotrzebowanie na doświadczonych specjalistów i dostęp do zaawansowanych narzędzi diagnostycznych, co nie zawsze jest możliwe w obszarach o ograniczonych zasobach.

W tym kontekście badacze zwrócili się ku sztucznej inteligencji, a zwłaszcza dużym modelom językowym, takim jak ChatGPT-3.5, ChatGPT-4o oraz chiński model Wenxin Yiyan. Modele te, choć pierwotnie rozwijane w celach ogólnych, wykazały zdolność przetwarzania złożonych danych medycznych, interpretacji wyników badań i sugerowania terapii. Autorzy postawili sobie za cel ocenę, na ile LLM mogą wspierać lekarzy w podejmowaniu decyzji dotyczących dzieci z wadami refrakcji.

Do badania włączono zestaw stu zanonimizowanych przypadków klinicznych dzieci w wieku 4–16 lat, obejmujący parametry takie jak ostrość wzroku, równoważnik sferyczny, krzywiznę rogówki i długość osiową oka. Każdy przypadek został wprowadzony do trzech modeli językowych. Zadaniem modeli było określenie, czy dana sytuacja wymaga interwencji, a jeśli tak – zaproponowanie odpowiedniej terapii. Rekomendacje porównano z konsensusem trzech doświadczonych okulistów dziecięcych, posługując się dwoma kryteriami oceny: Global Quality Score (GQS), mierzącym spójność i kliniczną trafność odpowiedzi, oraz oceną bezpieczeństwa klinicznego w trzystopniowej skali.

Wyniki okazały się jednoznacznie korzystne dla ChatGPT-4o, który osiągnął najwyższą dokładność – 90% w całej próbie, a 92,2% w przypadku krótkowzroczności, co czyniło go lepszym zarówno od ChatGPT-3.5, jak i Wenxin Yiyan. ChatGPT-4o uzyskał także najwyższą średnią GQS (4,4 ± 0,55), a 85% jego odpowiedzi oceniono jako „dobre”. Liczba błędnych rekomendacji była najmniejsza spośród wszystkich modeli, a w przypadku atropiny – żadna z sugestii nie była nieprawidłowa. Szczególnie istotne okazało się to w symulacjach niepełnych lub anormalnych danych, które w praktyce klinicznej zdarzają się często. ChatGPT-4o wykazał się największą odpornością na takie trudności, utrzymując wysokie wyniki jakościowe.

Nie oznacza to jednak, że modele wolne były od błędów. Wszystkie miały trudności z bardziej złożonymi przypadkami, obejmującymi wysoką krótkowzroczność czy znaczny astygmatyzm, które wymagają zrównoważonego podejścia i indywidualizacji terapii. ChatGPT-3.5 i Wenxin Yiyan częściej proponowały ortokorekcję w sytuacjach, w których była ona nieodpowiednia, na przykład u bardzo młodych dzieci lub u pacjentów ze znaczną nieregularnością rogówki. W niektórych przypadkach zdarzały się też błędne sugestie okularów w sytuacjach emmetropii granicznej. Analiza tych błędów pokazuje, że LLM wciąż w dużym stopniu polegają na ogólnych wytycznych, z trudnością wychwytując subtelne czynniki kliniczne, takie jak potencjał współpracy dziecka czy uwarunkowania anatomiczne.
Mimo to autorzy podkreślają ogromny potencjał takich narzędzi w przyszłości. Modele językowe mogą wspierać procesy decyzyjne, skracać czas potrzebny na analizę danych, ułatwiać standaryzację opieki i pomagać w obszarach niedoboru specjalistów. W warunkach rzeczywistych mogłyby pełnić rolę systemów triażowych, które identyfikują dzieci wymagające pilniejszej konsultacji, albo zapewniać wstępne rekomendacje terapeutyczne, które następnie są weryfikowane przez lekarza.

Jednocześnie autorzy nie unikają refleksji nad ograniczeniami. Po pierwsze, aktualne modele nie uwzględniają w pełni czynników indywidualnych, takich jak historia rodzinna, wzorce behawioralne czy postęp rozwoju. Po drugie, działają w oparciu o statyczne dane tabelaryczne i nie analizują jeszcze multimodalnych źródeł informacji, jak obrazy siatkówki czy topografia rogówki, które są standardem w diagnostyce refrakcyjnej. Po trzecie, nadmierne poleganie na sztucznej inteligencji bez nadzoru eksperta rodzi ryzyko błędnych decyzji klinicznych. Wreszcie, kwestie etyczne i regulacyjne, takie jak ochrona danych pacjentów i odpowiedzialność prawna za decyzje AI, wymagają pilnego rozwiązania, zanim takie technologie zostaną szeroko wdrożone.

Podsumowując, badanie to pokazuje, że duże modele językowe, a w szczególności ChatGPT-4o, mogą znacząco wspierać leczenie wad refrakcji u dzieci. Ich dokładność, spójność i odporność na niepełne dane czynią je obiecującym narzędziem wspomagającym decyzje kliniczne. Nie mogą jednak zastąpić wiedzy i doświadczenia specjalistów. Przyszłość tej technologii będzie zależała od dalszego rozwoju modeli dostosowanych do pediatrycznych potrzeb, integracji danych multimodalnych oraz stworzenia solidnych ram regulacyjnych i etycznych. Właśnie wtedy możliwe stanie się pełne wykorzystanie potencjału sztucznej inteligencji w okulistyce dziecięcej, zapewniając jednocześnie bezpieczeństwo i jakość opieki pacjentów.

Piśmiennictwo
1. Kang D, Wu H, Yuan L, Shen W, Feng J, Zhan J, Grzybowski A, Sun W, Jin K. Evaluating the Efficacy of Large Language Models in Guiding Treatment Decisions for Pediatric Refractive Error. Ophthalmol Ther. 2025 Apr;14(4):705-716.
2. Philip K, Sankaridurg P, Naduvilath T, et al. Prevalence and patterns of refractive errors in children and young adults in South India. Ophthalmic Epidemiol. 2023.
3. Rudnicka AR, Kapetanakis VV, Wathern AK, et al. Global variations and time trends in childhood myopia: systematic review and meta-analysis. Br J Ophthalmol. 2016.
4. Chia A, Lu Q-S, Tan D. Five-year clinical trial on atropine for the treatment of myopia 2. Ophthalmology. 2016.
5. Cho P, Cheung S-W. Retardation of myopia in orthokeratology (ROMIO) study. Invest Ophthalmol Vis Sci. 2012.
6. Esteva A, Robicquet A, Ramsundar B, et al. A guide to deep learning in healthcare. Nat Med. 2019.
7. Topol EJ. High-performance medicine: the convergence of human and artificial intelligence. Nat Med. 2019.
8. Betzler BK, Chen H, Cheng C-Y, et al. Large language models and their impact in ophthalmology. Lancet Digit Health. 2023.
9. Lim ZW, Pushpanathan K, Yew SME, et al. Benchmarking large language models’ performances for myopia care. eBioMedicine. 2023.
10. Su Z, Jin K, Wu H, et al. Assessment of large language models in cataract care information provision. Ophthalmol Ther. 2025.
11. Albahri AS, Duhaim AM, Fadhel MA, et al. Trustworthy and explainable AI in healthcare: systematic review. Inform Fus. 2023.

Szybki kontakt

Fundacja Wspierania Rozwoju Okulistyki „OKULISTYKA 21”

ul. A. Mickiewicza 24 lok. 3B, 60-836 Poznań

keyboard_arrow_up