在2023FAPA會議中,台大、哈佛流病的李建璋教授分享了 "large language model自動化監測藥物ADR" 的概念。
ADR相關性研究
1. 舊方法:
醫師從臨床上發現FQs因為會抑制膠原蛋白合成,而導致肌腱斷裂,進而想到marfan syndrome也是會造成結締組織(connective tissue)的分子鍵結出問題,她會導致主動脈瘤/剝離,那FQ是否也會導致主動脈瘤/剝離?
因為是罕見副作用,所以從健保大型資料庫中撈ICD碼,但用FQ與不用FQ的族群年紀、性別、心血管疾病…等confounder很多,無法直接比較,也不能無人道的使用RCT去做(罕見副作用所以要做也需一萬人以上)
於是採用case control risk-set sampling的方式matching (可讓odds ratio=rate ratio,印象中這樣可解釋與應用的範圍會變廣?),利用propensity score來計算病人可能以FQ治療的機率,比如年紀>65 X0.2、男性X0.1、QTc>500ms X0.2…相同分數的兩個個案,儘管他們可能實際上是控制組,他們有相同的預測機率會成為治療組,好處是等同RCT可消除多數的confounder。結果發現確實FQ比起不用FQ,有較高機率出現主動脈瘤/剝離,不建議一線直接用於非複雜性UTI。
問題是!
但不見得所有資料都有專屬欄位可供電腦直接讀到,很多時候你要從病歷裡找關鍵字、副作用描述、病人confounder描述…這需要龐大的人工。加上propensity score要抓哪些confounder,參數設定多少,都是人工…
有沒有更聰明、更自動、更即時的方法??
李教授介紹了一套AI操作流程概念:
1.
首先要control哪些confounder,參數設定多少?這個還是得人工
2.
至於從病歷的raw text抓出關鍵字這件事,可以使用large language model(LLM) 比如chatGPT,但畢竟他要上傳到美國系統,有病人個資的問題。因此另一款可下載的軟體LLAMA 2就很適合 (由Meta在7月釋出於github開源,各國可以下載後自行調教,像中研院就曾調教過一款CKIP-Llama-2-7b,雖然後來被發現只是把中國調教出來的資料簡轉繁,僅2天慘遭下架。但事後中研院有澄清他們真正在做的是TAIDE模型,那款CKIP只是個別研究員自己做爽的~)
你需要一台具有強大顯卡(至少Nvidia A100,據說1000萬台幣...)的電腦,然後不斷餵食牠,給他看至少一千本病歷,每本都要註明清楚,哪些文字代表什麼ICD碼、什麼副作用、什麼confounder,連錯別字也要標註,就像你在教小孩一樣。經過上千次的學習,這隻llama就會被你「調教」成有能力從病歷文字檔中,抓出你想要的資訊的好孩子。這些資訊就不再是.TXT檔,而是可以匯出成.CSV檔,供你在excel等統計軟體分析使用。
調教好的好孩子就能夠無暝無日的幫你監測醫院裡所有的病歷,並自動生成統計分析報表~ good boy! good boy!
這樣的概念就可以應用於我業務的vancomycin
Model informed precision dosing (MIPD),蒐集病歷中影響vancomycin血中濃度的confounder,如洗腎與否,流速設定,underlying疾病,病史,重症程度,charge水的量...等。我知道你一定會想問,這些資料很多都有對應的欄位直接讀取就好了,這樣當然OK。但就是有些資訊只有以TXT檔的形式存在病歷裡,就必須要使用到這個AI技術擷取出來,AI, LLM畢竟是這幾年的顯學,我想他會越來越成熟的XD
沒有留言:
張貼留言