⚔️破劍藥師的魔法藥鋪: large language model自動化監測藥物ADR

2023年10月27日星期五

large language model自動化監測藥物ADR

在2023FAPA會議中，台大、哈佛流病的李建璋教授分享了 "large language model自動化監測藥物ADR" 的概念。

ADR相關性研究
1. 舊方法:
醫師從臨床上發現FQs因為會抑制膠原蛋白合成，而導致肌腱斷裂，進而想到marfan syndrome也是會造成結締組織(connective tissue)的分子鍵結出問題，她會導致主動脈瘤/剝離，那FQ是否也會導致主動脈瘤/剝離?
因為是罕見副作用，所以從健保大型資料庫中撈ICD碼，但用FQ與不用FQ的族群年紀、性別、心血管疾病…等confounder很多，無法直接比較，也不能無人道的使用RCT去做(罕見副作用所以要做也需一萬人以上)
於是採用case control risk-set sampling的方式matching (可讓odds ratio=rate ratio，印象中這樣可解釋與應用的範圍會變廣?)，利用propensity score來計算病人可能以FQ治療的機率，比如年紀>65 X0.2、男性X0.1、QTc>500ms X0.2…相同分數的兩個個案，儘管他們可能實際上是控制組，他們有相同的預測機率會成為治療組，好處是等同RCT可消除多數的confounder。結果發現確實FQ比起不用FQ，有較高機率出現主動脈瘤/剝離，不建議一線直接用於非複雜性UTI。

問題是！
但不見得所有資料都有專屬欄位可供電腦直接讀到，很多時候你要從病歷裡找關鍵字、副作用描述、病人confounder描述…這需要龐大的人工。加上propensity score要抓哪些confounder，參數設定多少，都是人工…

有沒有更聰明、更自動、更即時的方法??

李教授介紹了一套AI操作流程概念：

1. 首先要control哪些confounder，參數設定多少?這個還是得人工

2. 至於從病歷的raw text抓出關鍵字這件事，可以使用large language model(LLM) 比如chatGPT，但畢竟他要上傳到美國系統，有病人個資的問題。因此另一款可下載的軟體LLAMA 2就很適合 (由Meta在7月釋出於github開源，各國可以下載後自行調教，像中研院就曾調教過一款CKIP-Llama-2-7b，雖然後來被發現只是把中國調教出來的資料簡轉繁，僅2天慘遭下架。但事後中研院有澄清他們真正在做的是TAIDE模型，那款CKIP只是個別研究員自己做爽的~)
你需要一台具有強大顯卡(至少Nvidia A100，據說1000萬台幣...)的電腦，然後不斷餵食牠，給他看至少一千本病歷，每本都要註明清楚，哪些文字代表什麼ICD碼、什麼副作用、什麼confounder，連錯別字也要標註，就像你在教小孩一樣。經過上千次的學習，這隻llama就會被你「調教」成有能力從病歷文字檔中，抓出你想要的資訊的好孩子。這些資訊就不再是.TXT檔，而是可以匯出成.CSV檔，供你在excel等統計軟體分析使用。

調教好的好孩子就能夠無暝無日的幫你監測醫院裡所有的病歷，並自動生成統計分析報表~ good boy! good boy!

這樣的概念就可以應用於我業務的vancomycin Model informed precision dosing (MIPD)，蒐集病歷中影響vancomycin血中濃度的confounder，如洗腎與否，流速設定，underlying疾病，病史，重症程度，charge水的量...等。我知道你一定會想問，這些資料很多都有對應的欄位直接讀取就好了，這樣當然OK。但就是有些資訊只有以TXT檔的形式存在病歷裡，就必須要使用到這個AI技術擷取出來，AI, LLM畢竟是這幾年的顯學，我想他會越來越成熟的XD

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)

2023年10月27日 星期五

large language model自動化監測藥物ADR

沒有留言:

張貼留言

2023年10月27日星期五