科普:人工智能醫(yī)療器械監(jiān)管研究進展
發(fā)布日期:2022-03-29 23:07瀏覽次數(shù):1536次
近日,威爾史密斯是個話題,不由得想起很多年前的大學時期,看過的他主演的有關(guān)人工智能的電影,由此想到了人工智能在醫(yī)療器械行業(yè)的逐漸應(yīng)用。因此,為大家?guī)砜破瘴恼?,有關(guān)人工智能醫(yī)療器械監(jiān)管研究進展。
近日,威爾史密斯是個話題,不由得想起很多年前的大學時期,看過的他主演的有關(guān)人工智能的電影,由此想到了人工智能在醫(yī)療器械行業(yè)的逐漸應(yīng)用。因此,為大家?guī)砜破瘴恼?,有關(guān)人工智能醫(yī)療器械監(jiān)管研究進展。
人工智能醫(yī)療器械具有自身特性,其監(jiān)管問題已成為國際醫(yī)療器械監(jiān)管領(lǐng)域的研究焦點之一,亟需深入研究。本文介紹了人工智能醫(yī)療器械所面臨的監(jiān)管挑戰(zhàn),提出了人工智能醫(yī)療器械監(jiān)管的總體思路,在分類界定、技術(shù)審評、體系核查等方面重點討論了人工智能醫(yī)療器械的監(jiān)管考量,并就今后的人工智能醫(yī)療器械監(jiān)管研究方向提供相關(guān)建議。
人工智能醫(yī)療器械具有自身特性,特別是當前代表產(chǎn)品所用深度學習技術(shù)具有黑盒特性,存在可解釋性差等問題,其監(jiān)管問題已成為國際醫(yī)療器械監(jiān)管領(lǐng)域的研究焦點之一,亟需加強監(jiān)管研究。
2019 年7 月, 我國成立人工智能醫(yī)療器械創(chuàng)新合作平臺,以促進人工智能醫(yī)療器械監(jiān)管研究;同時在全球率先發(fā)布《深度學習輔助決策醫(yī)療器械軟件審評要點》,明確人工智能醫(yī)療器械審評關(guān)注重點,引發(fā)國際廣泛關(guān)注。2020 年至今,我國大力推進人工智能醫(yī)療器械監(jiān)管研究,積極參與國際醫(yī)療器械監(jiān)管機構(gòu)論壇(IMDRF)人工智能醫(yī)療器械工作組、國際電信聯(lián)盟/ 世界衛(wèi)生組織醫(yī)學人工智能焦點組(ITU/WHO Focus Group on Artificial Intelligence for Health)等國際監(jiān)管協(xié)調(diào)工作;先后制定和發(fā)布多項相關(guān)指導(dǎo)原則、審評要點和行業(yè)標準,陸續(xù)批準20 余項第三類深度學習輔助決策類獨立軟件產(chǎn)品上市,標志著我國人工智能醫(yī)療器械監(jiān)管研究已取得階段性成果。
時值醫(yī)療器械監(jiān)督管理新法規(guī)實施之際,及時對人工智能醫(yī)療器械監(jiān)管研究進行總結(jié)和展望,不僅有利于提升監(jiān)管能力和水平,持續(xù)推進人工智能醫(yī)療器械監(jiān)管研究,而且有利于指導(dǎo)注冊申請人做好產(chǎn)品質(zhì)控工作,切實促進人工智能醫(yī)療器械產(chǎn)業(yè)健康發(fā)展。
一、人工智能醫(yī)療器械的監(jiān)管挑戰(zhàn)
人工智能醫(yī)療器械是采用人工智能技術(shù)實現(xiàn)其醫(yī)療用途的醫(yī)療器械,其監(jiān)管挑戰(zhàn)主要源自于人工智能技術(shù)所具有的特性。
人工智能技術(shù)具有快速迭代特性,特別是基于數(shù)據(jù)的算法。算法更新對于人工智能醫(yī)療器械安全性和有效性的影響具有不確定性,可能會提升產(chǎn)品性能,也可能會降低產(chǎn)品性能,甚至導(dǎo)致產(chǎn)品召回。若每次算法更新均需變更注冊,不僅會大幅增加注冊人負擔,而且會占用大量監(jiān)管資源。如何規(guī)范人工智能醫(yī)療器械算法更新的監(jiān)管要求,是監(jiān)管研究的重點。
人工智能技術(shù)需要高質(zhì)量醫(yī)學數(shù)據(jù)進行算法訓(xùn)練,尤其是基于數(shù)據(jù)的算法。由于受多方面客觀條件的限制,算法訓(xùn)練所用數(shù)據(jù)存在數(shù)據(jù)質(zhì)量不高、數(shù)據(jù)量不足、數(shù)據(jù)多樣性不夠、數(shù)據(jù)分布不合理等問題,易引入算法偏倚,降低算法泛化能力,導(dǎo)致產(chǎn)品難以在臨床落地。如何控制人工智能醫(yī)療器械的算法偏倚以保證算法泛化能力,也需要深入研究。
人工智能技術(shù)包含黑盒算法,黑盒算法可解釋性差。由于醫(yī)療決策路徑復(fù)雜,存在不確定性和開放性,故因果性對于醫(yī)療決策至關(guān)重要。而黑盒算法僅是反映輸出與輸入的相關(guān)性而非因果性,難以與現(xiàn)有醫(yī)學知識建立有效關(guān)聯(lián),用戶知其然不知其所以然,不利于后續(xù)醫(yī)療決策。如何提升人工智能醫(yī)療器械所用黑盒算法的透明度以增強可解釋性,亦需加強研究。
此外,人工智能技術(shù)包含多種算法,不同算法雖有不同技術(shù)特征,但相互之間存在著交叉、包含等關(guān)系,沒有清晰嚴格的劃分界線。同時,不同算法在醫(yī)療場景應(yīng)用的情況和程度也不同,存在著單獨使用、組合使用等情況,劃分界線也不清晰。這些模糊性使得人工智能醫(yī)療器械的監(jiān)管范圍難以確定。
二、人工智能醫(yī)療器械的監(jiān)管思路
人工智能醫(yī)療器械從醫(yī)療器械軟件角度可分為人工智能獨立軟件(軟件本身即為醫(yī)療器械,SaMD)和人工智能軟件組件(醫(yī)療器械內(nèi)含的軟件,SiMD),二者雖存在技術(shù)差異,但軟件生存周期過程質(zhì)控原則相同,故監(jiān)管要求基本一致。
人工智能醫(yī)療器械作為醫(yī)療器械軟件的子集,亦屬于數(shù)字醫(yī)療(Digital Health)范疇,其監(jiān)管思路遵循數(shù)字醫(yī)療監(jiān)管的框架和原則,同樣采用基于風險的全生命周期管理方法進行監(jiān)管,同時兼顧國際監(jiān)管經(jīng)驗和技術(shù)發(fā)展趨勢。
基于風險是指人工智能醫(yī)療器械的監(jiān)管要求取決于其風險水平,風險水平越高監(jiān)管要求越嚴,其風險水平采用軟件安全性級別進行表述,分為輕微、中等、嚴重三個級別,可結(jié)合人工智能醫(yī)療器械的預(yù)期用途、使用場景、核心功能進行綜合判定。全生命周期管理是指在醫(yī)療器械質(zhì)量管理體系框架下,明確人工智能醫(yī)療器械生存周期過程質(zhì)控要求,涵蓋上市前和上市后監(jiān)管要求,并可參考良好機器學習實踐(GMLP)進行完善。
同時,需要將國際監(jiān)管經(jīng)驗和中國國情相結(jié)合,綜合考慮人工智能醫(yī)療器械的監(jiān)管要求。不同國家的國情不同,醫(yī)療器械監(jiān)管的范圍、模式、資源、條件等方面均有所不同,因此國際監(jiān)管經(jīng)驗可以參考借鑒,但不能簡單照搬照抄。比如,美國FDA 正在制定“預(yù)定變更控制計劃”用于控制人工智能獨立軟件的更新,待成熟時擴至人工智能軟件組件,其核心思想是取消原有“算法鎖定”要求,制造商可在經(jīng)美國FDA 批準的軟件預(yù)定更新計劃下進行軟件更新而無需重新申請注冊。由于軟件預(yù)定更新計劃所含內(nèi)容可能涉及重大軟件更新,按照我國現(xiàn)行法規(guī)要求需要申請變更注冊,因此“預(yù)定變更控制計劃”在我國存在法規(guī)沖突,難以完全實施。再比如,美國FDA 正在試點“軟件預(yù)認證”項目,嘗試將獨立軟件監(jiān)管模式由基于產(chǎn)品改為基于制造商質(zhì)量與組織卓越文化(Cultureof Quality and Organizational Excellence,CQOE), 也適用于人工智能獨立軟件,后續(xù)將擴至軟件組件?!败浖A(yù)認證”在優(yōu)化產(chǎn)品上市流程等方面雖有參考借鑒價值,但從產(chǎn)品上市角度類似于我國已取消的免檢產(chǎn)品項目,不適合當前國情。
此外,需要結(jié)合人工智能技術(shù)發(fā)展趨勢,穩(wěn)妥考慮人工智能醫(yī)療器械監(jiān)管要求。采用傳統(tǒng)人工智能技術(shù)的醫(yī)療器械已有眾多產(chǎn)品獲批上市,需要考慮監(jiān)管要求的延續(xù)性,不能置之不顧推翻重來。采用深度學習技術(shù)的醫(yī)療器械是當前人工智能醫(yī)療器械的代表產(chǎn)品,并且處于快速發(fā)展階段,可作為切入點予以重點研究。采用人工智能新技術(shù)的醫(yī)療器械處于研發(fā)階段,亦需提前開展監(jiān)管研究,做好技術(shù)儲備以應(yīng)對新挑戰(zhàn)。
三、人工智能醫(yī)療器械的監(jiān)管考量
圍繞人工智能醫(yī)療器械所面臨的監(jiān)管挑戰(zhàn),基于人工智能醫(yī)療器械的監(jiān)管思路,人工智能醫(yī)療器械監(jiān)管研究在分類界定、技術(shù)審評、體系核查等方面取得相應(yīng)進展。
?。ㄒ唬┓诸惤缍?br/> 人工智能醫(yī)療器械需要明晰分類界定原則確定監(jiān)管范圍。因其屬于醫(yī)療器械軟件子集,故可參考醫(yī)療器械軟件的分類界定原則,結(jié)合其自身特性予以考慮。獨立軟件是否作為醫(yī)療器械管理,通常結(jié)合預(yù)期用途、核心功能進行判定,管理類別主要基于風險水平進行判定。軟件組件作為醫(yī)療器械的組成部分,其管理類別通常與所屬醫(yī)療器械相同,特殊情況參考獨立軟件分類界定情況并按風險從高原則進行判定。下面以獨立軟件為例進行重點討論。
由于醫(yī)學知識的真?zhèn)蝺?yōu)劣評判不屬于醫(yī)療器械監(jiān)管范圍,故基于知識管理的醫(yī)學人工智能軟件不是人工智能獨立軟件, 其代表產(chǎn)品是采用自然語言處理(NLP)技術(shù)對電子病歷的文本信息進行處理分析,生成知識圖譜或量表并以此為基礎(chǔ)向用戶提供醫(yī)療決策建議。此類軟件的預(yù)期用途、核心功能與人工智能獨立軟件類似,需要引入易于操作的分類界定新維度加以區(qū)分。考慮到人工智能獨立軟件的處理對象基于醫(yī)療器械數(shù)據(jù)(即醫(yī)療器械產(chǎn)生的用于醫(yī)療用途的客觀數(shù)據(jù)),而此類軟件的處理對象基于非醫(yī)療器械數(shù)據(jù),并且處理對象概念清晰易于操作,故可引入處理對象作為分類界定新維度。因此,醫(yī)學人工智能軟件是否為人工智能獨立軟件,需結(jié)合其預(yù)期用途、核心功能、處理對象進行綜合判定。
人工智能獨立軟件的管理類別判定需要基于其風險水平,兼顧已上市產(chǎn)品的監(jiān)管延續(xù)性。風險水平可從預(yù)期用途、算法成熟度兩個維度細化,其中預(yù)期用途可分為輔助決策和非輔助決策,前者提供醫(yī)療決策建議,后者提供醫(yī)療參考信息,前者風險高于后者;算法成熟度可分為成熟算法和全新算法,前者是指算法安全性和有效性已在醫(yī)療應(yīng)用中得到充分證實,后者是指算法未上市或其安全性和有效性尚未在醫(yī)療應(yīng)用中得到充分證實,后者潛在風險多于前者。全新算法若用于輔助決策按第三類醫(yī)療器械管理,若用于非輔助決策按第二類醫(yī)療器械管理;成熟算法無論何種預(yù)期用途管理類別保持不變,以保證監(jiān)管延續(xù)性。
?。ǘ┘夹g(shù)審評
人工智能醫(yī)療器械的技術(shù)審評不僅要考慮人工智能醫(yī)療器械指導(dǎo)原則要求,而且要考慮數(shù)字醫(yī)療等相關(guān)指導(dǎo)原則要求,包括但不限于醫(yī)療器械軟件、醫(yī)療器械網(wǎng)絡(luò)安全、醫(yī)療器械人因設(shè)計、移動醫(yī)療器械、醫(yī)療器械臨床評價、醫(yī)用軟件通用名稱命名等指導(dǎo)原則。
技術(shù)審評主要結(jié)合算法特征和產(chǎn)品特性,綜合權(quán)衡風險和受益,系統(tǒng)評價安全性和有效性。算法特征不同,評價重點也不同,比如,黑盒算法可解釋性劣于白盒算法,需要關(guān)注其可解釋性提升問題;有監(jiān)督學習數(shù)據(jù)標注要求高于無監(jiān)督學習,需要關(guān)注其數(shù)據(jù)標注質(zhì)控問題;基于數(shù)據(jù)的算法對于訓(xùn)練數(shù)據(jù)量的要求高于基于模型的算法,需要關(guān)注其數(shù)據(jù)質(zhì)控問題。產(chǎn)品的預(yù)期用途、使用場景不同,即使采用同一算法,其產(chǎn)品特性亦不同,評價亦有所側(cè)重。風險主要關(guān)注過擬合和欠擬合等算法風險,以及假陰性和假陽性等醫(yī)療決策風險,進口產(chǎn)品還需考慮中外差異風險。系統(tǒng)評價需結(jié)合算法訓(xùn)練、算法性能評估、臨床評價等結(jié)果對產(chǎn)品的適用范圍、使用場景、核心功能進行規(guī)范和必要限制,對于前期已開發(fā)且不滿足要求的產(chǎn)品允許開展差距分析并采取補救措施。
在算法更新控制方面,將算法更新分為算法驅(qū)動型更新和數(shù)據(jù)驅(qū)動型更新并區(qū)分要求,前者是指算法發(fā)生實質(zhì)性變化或者重新訓(xùn)練,屬于重大軟件更新,需申請變更注冊;后者是指僅由訓(xùn)練數(shù)據(jù)量增加而發(fā)生的算法更新,若算法性能評估結(jié)果與前次注冊相比存在統(tǒng)計學差異則屬于重大軟件更新,需申請變更注冊,反之屬于輕微軟件更新,無需申請變更注冊,通過質(zhì)量管理體系進行控制,待下次變更注冊時提交相應(yīng)注冊申報資料,即無需“算法鎖定”。同時,通過軟件版本命名規(guī)則進行算法更新控制,軟件版本命名規(guī)則需涵蓋算法驅(qū)動型更新和數(shù)據(jù)驅(qū)動型更新,列舉重大算法更新常見典型情況,在方法學上實與“軟件預(yù)定更新計劃”相同,但更早實施。
在算法泛化能力保證方面,訓(xùn)練數(shù)據(jù)需結(jié)合目標疾病流行病學特征,盡可能來源于多家、多地域、多層級的代表性臨床機構(gòu),以及多家、多種、多參數(shù)的代表性采集設(shè)備,從而提高數(shù)據(jù)充分性和多樣性,從源頭保證算法泛化能力。算法訓(xùn)練需提供訓(xùn)練數(shù)據(jù)量- 評估指標曲線等證據(jù),持續(xù)監(jiān)測算法泛化能力。算法驗證所用測試集需不同于訓(xùn)練集,以客觀評價算法泛化能力,并可結(jié)合壓力測試和對抗測試深入評價算法泛化能力。算法確認需保證臨床評價數(shù)據(jù)集不同于訓(xùn)練數(shù)據(jù)集,機構(gòu)數(shù)量盡可能多,地域分布盡可能廣泛,以全面評價算法泛化能力。上市后亦需在真實世界持續(xù)開展算法泛化能力研究。
在黑盒算法可解釋性提升方面,算法設(shè)計需對黑盒算法開展算法性能影響因素分析,研究影響算法性能的主要因素及其影響程度,根據(jù)分析結(jié)果明確產(chǎn)品使用限制,并在說明書中予以警示和提示,以提升算法可解釋性。同時,明確算法開發(fā)生存周期過程質(zhì)控要求,以提升算法透明度。此外,建議與現(xiàn)有醫(yī)學知識建立關(guān)聯(lián),以進一步提升算法可解釋性。
此外,在人工智能新技術(shù)應(yīng)對方面,針對當前處于研發(fā)階段尚無產(chǎn)品注冊的人工智能新技術(shù),僅作原則性要求,提供算法基本信息、算法選用依據(jù)和算法驗證與確認資料即可,預(yù)留監(jiān)管空間。在算法評價方法方面,提出可基于測評數(shù)據(jù)庫進行算法確認,測評數(shù)據(jù)庫需滿足權(quán)威性、科學性、規(guī)范性、多樣性、封閉性、動態(tài)性等要求,公開數(shù)據(jù)庫因不具備封閉性而不能用作測評數(shù)據(jù)庫,但可用于算法性能評估或算法訓(xùn)練。
(三)體系核查
人工智能醫(yī)療器械的體系核查需要基于醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范、獨立軟件附錄(軟件組件參照執(zhí)行,含網(wǎng)絡(luò)安全)及其現(xiàn)場檢查指導(dǎo)原則,并可參考人工智能醫(yī)療器械指導(dǎo)原則相關(guān)要求,其以有監(jiān)督深度學習為例明確了人工智能醫(yī)療器械生存周期過程質(zhì)控要求,涵蓋需求分析、數(shù)據(jù)收集、算法設(shè)計、驗證與確認、更新控制等階段。
考慮到有些注冊申請人剛進入醫(yī)療器械行業(yè),對于質(zhì)量管理體系文檔化要求的認識和理解不到位,著重加強體系記錄的要求,包括數(shù)據(jù)采集質(zhì)量評估、數(shù)據(jù)標注質(zhì)量評估、數(shù)據(jù)擴增、算法更新等方面。
數(shù)據(jù)質(zhì)控對于保證產(chǎn)品質(zhì)量至關(guān)重要,特別是基于數(shù)據(jù)的算法,因此著力規(guī)范數(shù)據(jù)質(zhì)控要求,明確并細化數(shù)據(jù)采集、數(shù)據(jù)整理、數(shù)據(jù)標注、數(shù)據(jù)集構(gòu)建等環(huán)節(jié)質(zhì)控要求,涵蓋人員、過程、結(jié)果等方面。
算法更新質(zhì)控是體系核查的重點,特別是對數(shù)據(jù)驅(qū)動型更新,因其輕微軟件更新主要通過質(zhì)量管理體系進行控制。以算法更新與軟件版本命名規(guī)則的匹配性作為切入點,將是算法更新體系核查的基本方法。
算法可追溯性分析作為算法質(zhì)量保證的重要方法,也是體系核查的重點,需追溯算法需求、算法設(shè)計、算法實現(xiàn)(即源代碼)、算法測試、算法風險管理的相互關(guān)系。算法更新亦需開展算法可追溯性分析。
四、人工智能醫(yī)療器械的監(jiān)管研究展望
我國人工智能醫(yī)療器械監(jiān)管研究雖已取得階段性成果,但所面臨的監(jiān)管挑戰(zhàn)依然存在且將長期存在,一是現(xiàn)有挑戰(zhàn)尚未全部得到根本解決,二是人工智能新技術(shù)層出不窮,亦會帶來新挑戰(zhàn),因此需要持續(xù)推進監(jiān)管科學研究,進一步提升國際競爭力和話語權(quán)。
持續(xù)學習/ 自適應(yīng)學習具備自學習能力,此時用戶亦成為產(chǎn)品開發(fā)者,與注冊申請人共同承擔法律責任和質(zhì)量責任,同時算法更新迭代速度更快,用戶不同算法更新情況亦不同,對于產(chǎn)品安全性和有效性的影響具有高度不確定性,因此當前限定持續(xù)學習/ 自適應(yīng)學習僅可用于算法訓(xùn)練或醫(yī)學研究,不得用于醫(yī)療決策。從長遠角度來看,需要從法規(guī)、產(chǎn)品質(zhì)量評價等方面深入研究其監(jiān)管模式,明確注冊申請人和用戶的責任劃分,利用年度報告等制度及時、精確評價算法更新影響。
人工智能醫(yī)療器械安全有效性評價體系亦需全面研究。一是大力推進重點產(chǎn)品指導(dǎo)原則和審評要點的制修訂,與人工智能醫(yī)療器械產(chǎn)品發(fā)展趨勢相匹配,不斷完善人工智能醫(yī)療器械指導(dǎo)原則體系的構(gòu)建工作。二是充分利用真實世界數(shù)據(jù)客觀評價人工智能醫(yī)療器械的算法泛化能力,實現(xiàn)全生命周期閉環(huán)監(jiān)管。三是繼續(xù)探索測評數(shù)據(jù)庫的評估要求和作用價值,測評數(shù)據(jù)庫具有封閉性,注冊申請人無法直接評估,需要結(jié)合醫(yī)療器械主文檔登記事項予以評估,在此基礎(chǔ)上進一步探索測評數(shù)據(jù)庫在產(chǎn)品質(zhì)量評價中的作用和價值。
有些人工智能醫(yī)療器械預(yù)期在基層醫(yī)療機構(gòu)使用,由于基層醫(yī)療機構(gòu)不具備醫(yī)療器械臨床試驗機構(gòu)的備案條件,故這些產(chǎn)品難以在真實臨床場景下開展臨床試驗進行算法確認,影響產(chǎn)品質(zhì)量評價結(jié)果。以基層醫(yī)療機構(gòu)的業(yè)務(wù)主管醫(yī)療機構(gòu)作為臨床試驗的牽頭單位或許是解決方法。
隨著人工智能新技術(shù)的快速發(fā)展,人工智能醫(yī)療器械新產(chǎn)品形態(tài)也會出現(xiàn),其監(jiān)管的范圍、模式和方法可能均需調(diào)整,分類界定、技術(shù)審評、體系核查等方面具體工作的關(guān)注重點亦需隨之調(diào)整,這樣方能及時、有效地解決人工智能新技術(shù)所帶來的監(jiān)管挑戰(zhàn)。
關(guān)鍵詞:人工智能醫(yī)療器械注冊