Böyük Dil Modeli (LLM) tez sözlərə əsaslanan inandırıcı məqalələr yaza, peşəkar bacarıq imtahanlarından keçə və xəstəyə dost və empatik məlumat yaza bilər. Bununla belə, LLM-də fantastika, kövrəklik və qeyri-dəqiq faktların məlum risklərinə əlavə olaraq, onların yaradılması və istifadəsində potensial olaraq ayrı-seçkilik yaradan “insani dəyərləri” ehtiva edən AI modelləri kimi həll olunmamış digər problemlər də tədricən diqqət mərkəzinə çevrilir və hətta LLM artıq məzmun yaratmasa və açıq-aydın zərərli çıxış nəticələrini aradan qaldırsa belə, “LLM” yenə də insan dəyərlərini poza bilər.
Saysız-hesabsız nümunələr süni intellekt modellərini öyrətmək üçün istifadə edilən məlumatların model daxilində möhkəmlənə bilən fərdi və sosial dəyərləri necə kodladığını göstərir. Bu nümunələr döş qəfəsinin rentgenoqrafiyasının avtomatik şərhi, dəri xəstəliklərinin təsnifatı və tibbi resursların bölüşdürülməsi ilə bağlı alqoritmik qərarların qəbulu da daxil olmaqla bir sıra tətbiqləri əhatə edir. Jurnalımızdakı son məqalədə deyildiyi kimi, qərəzli təlim məlumatları cəmiyyətdə mövcud olan dəyərləri və qərəzləri gücləndirə və aşkar edə bilər. Əksinə, tədqiqat da göstərdi ki, süni intellekt qərəzliyi azaltmaq üçün istifadə edilə bilər. Məsələn, tədqiqatçılar diz rentgen filmlərinə dərin öyrənmə modellərini tətbiq etdilər və diz ekleminde standart şiddət göstəriciləri (radioloqlar tərəfindən qiymətləndirilmiş) tərəfindən qaçırılan amilləri aşkar etdilər və bununla da qara və ağ xəstələr arasında izah olunmayan ağrı fərqlərini azaldıblar.
Getdikcə daha çox insan AI modellərində, xüsusən də təlim məlumatları baxımından qərəzliliyi dərk etsə də, AI modellərinin inkişafı və tətbiqi prosesində insan dəyərlərinin bir çox digər giriş nöqtələrinə kifayət qədər diqqət yetirilmir. Tibbi süni intellekt bu yaxınlarda təsir edici nəticələr əldə edib, lakin böyük ölçüdə o, insan dəyərlərini və onların risklərin qiymətləndirilməsi və ehtimal əsaslandırması ilə qarşılıqlı əlaqəsini açıq şəkildə nəzərdən keçirməyib və modelləşdirilməyib.
Bu mücərrəd anlayışları konkretləşdirmək üçün təsəvvür edin ki, siz yaşının 3-cü faizindən aşağı olan 8 yaşlı oğlan üçün rekombinant insan böyümə hormonu təyin etməli olan endokrinoloqsunuz. Oğlanın stimullaşdırılmış insan böyümə hormonunun səviyyəsi 2 ng/ml-dən aşağıdır (referans dəyər,>10 ng/mL, ABŞ-dan kənar bir çox ölkələr üçün istinad dəyəri>7 ng/mL) və onun insan böyümə hormonunu kodlayan geni nadir inaktivasiya mutasiyalarını aşkar edib. Biz inanırıq ki, insan böyümə hormonu terapiyasının tətbiqi bu klinik şəraitdə açıq və mübahisəsizdir.
Aşağıdakı ssenarilərdə insan böyümə hormonu terapiyasının tətbiqi mübahisələrə səbəb ola bilər: 14 yaşlı bir oğlanın boyu həmişə yaşıdlarının 10-cu faizində olmuşdur və stimullaşdırmadan sonra insan böyümə hormonunun zirvəsi 8 ng/mL-dir. Hündürlüyə təsir edə biləcək funksional mutasiyalar və qısaboyun digər məlum səbəbləri yoxdur və onun sümük yaşı 15 yaşındadır (yəni inkişafda geriləmə yoxdur). Mübahisənin yalnız bir hissəsi, təcrid olunmuş böyümə hormonu çatışmazlığının diaqnozu üçün istifadə edilən insan böyümə hormonu səviyyələri ilə bağlı onlarla araşdırmaya əsaslanan mütəxəssislər tərəfindən müəyyən edilmiş hədd dəyərlərindəki fərqlərlə bağlıdır. Ən azı bir o qədər mübahisə, xəstələrin, xəstə valideynlərinin, səhiyyə işçilərinin, əczaçılıq şirkətlərinin və ödəyicilərin nöqteyi-nəzərindən insan böyümə hormonu terapiyasından istifadənin risk fayda balansından qaynaqlanır. Pediatrik endokrinoloqlar 2 il ərzində gündəlik böyümə hormonu enjeksiyonlarının nadir mənfi təsirlərini indiki ilə müqayisədə böyüklərin bədən ölçülərində heç bir artım olmama və ya yalnız minimal artım ehtimalı ilə ölçə bilərlər. Oğlanlar hesab edə bilər ki, boyları cəmi 2 sm artsa belə, böyümə hormonu yeritməyə dəyər, lakin ödəyici və əczaçılıq şirkəti fərqli fikirlərə sahib ola bilər.
Nümunə olaraq xroniki böyrək xəstəliyinin diaqnostikası və mərhələlərinin təyin edilməsi, böyrək transplantasiyası və ya donorluq şərtlərinin təyin edilməsi və bir çox reçeteli dərmanlar üçün azalma meyarlarının və əks göstərişlərinin müəyyən edilməsi üçün geniş istifadə olunan böyrək funksiyasının göstəricisi olan kreatinin əsaslı eGFR-ni götürürük. EGFR, istinad standartı olan ölçülmüş glomerular filtrasiya sürətini (mGFR) qiymətləndirmək üçün istifadə edilən sadə reqressiya tənliyidir, lakin qiymətləndirmə metodu nisbətən çətin olur. Bu reqressiya tənliyi süni intellekt modeli sayıla bilməz, lakin o, insan dəyərləri və ehtimal əsaslandırması ilə bağlı bir çox prinsipləri təsvir edir.
İnsan dəyərlərinin eGFR-yə daxil olması üçün ilk giriş nöqtəsi uyğun tənliklər üçün məlumatların seçilməsidir. eGFR formulunu tərtib etmək üçün istifadə edilən orijinal növbə əsasən ağ-qara iştirakçılardan ibarətdir və onun bir çox digər etnik qruplara tətbiqi aydın deyil. Bu düstura insan dəyərləri üçün sonrakı giriş nöqtələrinə aşağıdakılar daxildir: böyrək funksiyasının qiymətləndirilməsi üçün əsas məqsəd kimi mGFR dəqiqliyinin seçilməsi, məqbul dəqiqlik səviyyəsi nədir, dəqiqliyin necə ölçülməsi və eGFR-dən klinik qərarların qəbulu üçün hədd kimi istifadə edilməsi (məsələn, böyrək qabırğasının transplantasiyası üçün şərtlərin müəyyən edilməsi və ya). Nəhayət, giriş modelinin məzmununu seçərkən insan dəyərləri də bu düstura daxil olacaq.
Məsələn, 2021-ci ildən əvvəl təlimatlar eGFR düsturunda kreatinin səviyyələrinin xəstənin yaşı, cinsi və irqi əsasında tənzimlənməsini təklif edir (yalnız qaradərili və ya qaradərili olmayan şəxslər kimi təsnif edilir). İrqə əsaslanan tənzimləmə mGFR düsturunun dəqiqliyini artırmaq məqsədi daşıyır, lakin 2020-ci ildə əsas xəstəxanalar xəstənin transplantasiya üçün uyğunluğunun gecikdirilməsi və irqin bioloji konsepsiya kimi konkretləşdirilməsi kimi səbəbləri əsas gətirərək irqə əsaslanan eGFR-nin istifadəsini şübhə altına almağa başladılar. Tədqiqatlar göstərdi ki, eGFR modellərinin irq baxımından dizayn edilməsi dəqiqlik və klinik nəticələrə dərin və müxtəlif təsirlər göstərə bilər; Buna görə də, seçici şəkildə dəqiqliyə diqqət yetirmək və ya nəticələrin bir hissəsinə diqqət yetirmək dəyər mühakimələrini əks etdirir və şəffaf qərar qəbulunu maskalaya bilər. Nəhayət, milli işçi qrupu performans və ədalətlilik məsələlərini tarazlaşdırmaq üçün irqi nəzərə almadan yenidən qurulmuş yeni formul təklif etdi. Bu nümunə göstərir ki, hətta sadə bir klinik formulun da insan dəyərlərinə çoxlu giriş nöqtələri var.
Yalnız az sayda proqnoz göstəriciləri olan klinik düsturlarla müqayisədə LLM milyardlarla yüz milyardlarla parametrdən (model çəkiləri) və ya daha çoxundan ibarət ola bilər ki, bu da başa düşülməsini çətinləşdirir. “Başa düşmək çətindir” deməyimizin səbəbi odur ki, əksər LLM-lərdə sorğu vasitəsilə cavabların əldə edilməsinin dəqiq yolu xəritədə göstərilə bilməz. GPT-4 üçün parametrlərin sayı hələ açıqlanmayıb; Onun sələfi GPT-3 175 milyard parametrə malik idi. Daha çox parametrlər mütləq daha güclü imkanlar demək deyil, çünki daha çox hesablama dövrü daxil edən kiçik modellər (məsələn, LLaMA [Böyük Dil Modeli Meta AI] model seriyası) və ya insan rəyi əsasında dəqiq tənzimlənmiş modellər daha böyük modellərdən daha yaxşı performans göstərəcək. Məsələn, insan qiymətləndiricilərinin fikrincə, InstrumentGPT modeli (1,3 milyard parametrli model) model çıxış nəticələrinin optimallaşdırılmasında GPT-3-dən üstündür.
GPT-4-ün xüsusi təlim təfərrüatları hələ açıqlanmayıb, lakin GPT-3, InstrumentGPT və bir çox digər açıq mənbəli LLM-lər daxil olmaqla əvvəlki nəsil modellərin təfərrüatları açıqlanıb. Hal-hazırda, bir çox AI modeli model kartları ilə gəlir; GPT-4-ün qiymətləndirilməsi və təhlükəsizlik məlumatları model yaratma şirkəti OpenAI tərəfindən təqdim edilən oxşar sistem kartında dərc edilmişdir. LLM-nin yaradılması təxminən iki mərhələyə bölünə bilər: ilkin hazırlıq mərhələsi və modelin nəticələrinin optimallaşdırılmasına yönəlmiş incə tənzimləmə mərhələsi. Təlimdən əvvəlki mərhələdə, model növbəti sözü proqnozlaşdırmaq üçün onu öyrətmək üçün orijinal İnternet mətni də daxil olmaqla böyük bir korpusla təmin edilir. Bu sadə görünən “avtomatik tamamlama” prosesi güclü təməl model yaradır, lakin o, həm də zərərli davranışa səbəb ola bilər. İnsan dəyərləri GPT-4 üçün təlim öncəsi məlumatların seçilməsi və pornoqrafik məzmun kimi uyğun olmayan məzmunun məşq öncəsi məlumatlardan silinməsinə qərar vermək də daxil olmaqla, təlim öncəsi mərhələyə daxil olacaq. Bu səylərə baxmayaraq, əsas model hələ də nə faydalı, nə də zərərli çıxış nəticələrini ehtiva edə bilməz. İncə tənzimləmənin növbəti mərhələsində bir çox faydalı və zərərsiz davranışlar ortaya çıxacaq.
İncə tənzimləmə mərhələsində dil modellərinin davranışı çox vaxt insan rəyi əsasında nəzarət edilən incə sazlama və gücləndirici öyrənmə vasitəsilə dərindən dəyişdirilir. Nəzarət olunan incə tənzimləmə mərhələsində muzdlu podratçı işçilər operativ sözlər üçün cavab nümunələri yazacaq və modeli birbaşa öyrədəcək. İnsan rəyinə əsaslanan möhkəmləndirmə öyrənmə mərhələsində insan qiymətləndiriciləri model çıxış nəticələrini giriş məzmunu nümunələri kimi çeşidləyəcəklər. Daha sonra “mükafat modelini” öyrənmək və gücləndirici öyrənmə vasitəsilə modeli daha da təkmilləşdirmək üçün yuxarıdakı müqayisə nəticələrini tətbiq edin. Heyrətamiz aşağı səviyyəli insan iştirakı bu böyük modelləri dəqiq tənzimləyə bilər. Məsələn, InstrumentGPT modeli kraudsorsinq veb-saytlarından işə götürülmüş təxminən 40 podratçı personaldan ibarət bir komandadan istifadə etdi və müxtəlif əhali qruplarının seçimlərinə həssas olan annotatorlar qrupunu seçmək üçün yoxlama testindən keçdi.
Bu iki ifrat nümunə, yəni sadə klinik formula [eGFR] və güclü LLM [GPT-4] nümayiş etdirdiyi kimi, insan qərarlarının qəbulu və insan dəyərləri model çıxış nəticələrinin formalaşmasında əvəzsiz rol oynayır. Bu AI modelləri onların müxtəlif xəstə və həkim dəyərlərini tuta bilərmi? AI-nin tibbdə tətbiqini ictimaiyyətə necə istiqamətləndirmək olar? Aşağıda qeyd edildiyi kimi, tibbi qərarların təhlilinin yenidən nəzərdən keçirilməsi bu məsələlərin prinsipial həllini təmin edə bilər.
Tibbi qərarların təhlili bir çox klinisyenlərə tanış deyil, lakin o, ehtimal əsaslandırması (qərar vermə ilə bağlı qeyri-müəyyən nəticələr üçün, məsələn, Şəkil 1-də göstərilən mübahisəli klinik ssenaridə insan böyümə hormonunun tətbiq edilib-edilməməsi üçün) və nəzərə alma faktorları (bu nəticələrə əlavə olunan subyektiv dəyərlər üçün, dəyəri "kvars" kimi artım" arasında fərqi ayıra bilər. kişi boyu), mürəkkəb tibbi qərarlar üçün sistematik həllər təmin edir. Qərarların təhlilində klinisyenler ilk növbədə hər bir nəticə ilə bağlı bütün mümkün qərarları və ehtimalları müəyyən etməli, sonra isə ən uyğun variantı seçmək üçün hər bir nəticə ilə əlaqəli xəstə (və ya digər tərəf) yardım proqramını birləşdirməlidir. Buna görə də, qərarın təhlilinin etibarlılığı nəticə qəbulunun hərtərəfli olub-olmamasından, həmçinin faydalılığın ölçülməsinin və ehtimalın qiymətləndirilməsinin düzgün olub-olmamasından asılıdır. İdeal olaraq, bu yanaşma qərarların sübuta əsaslanmasını və xəstələrin seçimlərinə uyğun olmasını təmin etməyə kömək edir və bununla da obyektiv məlumatlar və şəxsi dəyərlər arasındakı boşluğu daraldır. Bu üsul tibb sahəsinə bir neçə onilliklər əvvəl tətbiq edilib və ümumi əhaliyə kolorektal xərçəngin skrininqi üçün tövsiyələrin verilməsi kimi fərdi xəstə qərarlarının qəbulu və əhalinin sağlamlığının qiymətləndirilməsi üçün tətbiq edilib.
Tibbi qərarların təhlilində faydalılıq əldə etmək üçün müxtəlif üsullar hazırlanmışdır. Ənənəvi metodların əksəriyyəti birbaşa xəstələrdən qiymət alır. Ən sadə üsul, xəstələrin rəqəmsal miqyasda (məsələn, 1-dən 10-a qədər dəyişən xətti miqyasda) müəyyən nəticəyə üstünlük vermə səviyyəsini qiymətləndirmək üçün reytinq şkalasından istifadə etməkdir, ən ekstremal sağlamlıq nəticələri (məsələn, tam sağlamlıq və ölüm) hər iki ucunda yerləşir. Vaxt mübadiləsi metodu başqa bir çox istifadə edilən üsuldur. Bu üsulda xəstələr sağlamlıq vəziyyətinin pis olduğu bir dövr müqabilində nə qədər sağlam vaxt keçirməyə hazır olduqlarına qərar verməlidirlər. Standart qumar üsulu faydalılığı müəyyən etmək üçün başqa bir çox istifadə edilən üsuldur. Bu üsulda xəstələrdən iki variantdan hansına üstünlük verdikləri soruşulur: ya müəyyən bir ehtimalla (p) (t) normal sağlamlıq şəraitində müəyyən il yaşayır və 1-p ehtimalı ilə ölüm riskini daşıyır; Ya çarpaz sağlamlıq şəraitində t il yaşamağınızdan əmin olun. Xəstələrdən hər hansı bir seçimə üstünlük verməyənə qədər müxtəlif p-dəyərlərində bir neçə dəfə soruşun, beləliklə, fayda xəstənin cavablarına əsasən hesablana bilsin.
Fərdi pasiyent seçimlərini ortaya çıxarmaq üçün istifadə edilən üsullarla yanaşı, xəstə əhali üçün faydalılıq əldə etmək üçün üsullar da işlənib hazırlanmışdır. Xüsusilə fokus qrup müzakirələri (xəstələrin xüsusi təcrübələri müzakirə etmək üçün bir araya gətirilməsi) onların perspektivlərini anlamağa kömək edə bilər. Qrup faydasını effektiv şəkildə birləşdirmək üçün müxtəlif strukturlaşdırılmış qrup müzakirəsi üsulları təklif edilmişdir.
Praktikada klinik diaqnostika və müalicə prosesində kommunal xidmətin birbaşa tətbiqi çox vaxt aparır. Həll yolu kimi, sorğu anketləri adətən əhali səviyyəsində faydalılıq ballarını əldə etmək üçün təsadüfi seçilmiş populyasiyalara paylanır. Bəzi nümunələrə EuroQol 5-ölçülü sorğu vərəqəsi, 6-ölçülü faydalı çəki qısa forması, Sağlamlıq Faydalılıq İndeksi və Xərçəng Xüsusi Avropa Xərçəng Araşdırma və Müalicə Təşkilatının Həyat Keyfiyyəti Anketi Core 30 aləti daxildir.
Göndərmə vaxtı: 01 iyun 2024-cü il




