一起来理解什么是“循证医学”
文/Luxenius
不得不说,大部分人试图将「循证医学」引入其论述时都直接暴露了自己对相关问题认识的不足。外行就不说了,甚至很多医学从业者,对「循证医学」的理解,也是停留在了90年代初循证医学刚刚诞生时候的一些论述上,实际上是走偏了。
今年上半年在北京开会,看了两场以临床问题为辩题的辩论会,双方都是国内 Top 5 医学院的博士生。当正方不断地引述「循证医学」的论点时,我就一直在皱眉头,心想,你每多说一句,其实就给反方留下了多一个攻击点,因为其实你的理解从开始就错了。但很可惜,反方一条都没有挑出来辩,尽管最后还是赢了。下来找反方的那个博士生交流了下,才知道其实反方也完全没有听出对方这类论述的问题在哪。其实她完全可以赢得更有气势,如果她自己足够理解的话。
大概是几年前开始,网上对于医学问题的讨论,也常常会走到提「循证医学」这一步,哪怕是两个非专业人士之间。似乎「循证医学」就是一个法典,我指着这个标准来我就是对的,甚至到了你做不到双盲随机对照,那你就是伪科学的地步,被指责方也很苦恼,想办法摆脱指责,有的还干脆开始攻击循证医学本身了。
我在这个回答中简单的论述过什么是循证医学,但篇幅有限,深度有限,不可能就这么理清所有的概念。再此借专栏再多谈谈我自己的认识,算是半科普,给同行看,也给感兴趣的其他专业朋友看。欢迎交流。
一、循证医学的只是概念么?
不是,它还有一套不断完善中的方法学,体系越发庞大。1990年 Evidence-based medicine 第一次在文献中出现,1992 年正式提出,直到2006年以前,这个领域的热点都集中在如何对研究进行整合和临床研究的科学规范方面,直到 2004-2008 年 GRADE 体系的建立,以及 2006 年 5S 系统的提出,循证医学才开始全面围绕临床决策,发展出一系列的方法和理论。一句话,循证医学不只是个概念或者思潮,它是近20多年临床医学实践的一次方法革命。
二、循证医学用在什么地方?谁需要学?
循证医学是紧密围绕临床决策(Clinical decision making)服务的。也就是说,其出发点,是临床医生需要科学可靠的依据来支撑他的判断和决定,而这个依据来自人类此前研究的结晶,而不仅仅是他本人有限生涯中有限地见闻。怎样为临床医生提供最新、科学、全面、客观、容易获取的决策支持,是当代循证医学的核心目标。
所以,循证医学首先是用于指南制定小组,由学科内顶级专家组成,使用循证医学的方法,对数以万计的相关研究进行检索、评价、合并、总结,把这些变成简单明确的结论性语言,附上相应的推荐,以帮助临床医生进行实践。一个典型的循证指南的例子,来自美国内分泌协会2010年发布的《减肥术后患者内分泌和营养管理临床指南》:
The Task Force recommends that postoperative glycemic control should consist of achieving glycated hemoglobin (Hb) A1c of 7% or less, with fasting blood glucose no greater than 110 mg/dL and postprandial glucose no greater than 180 mg/dL (Recommendation: Strong | Level of evidence: Moderate).
指南小组推荐将减肥术后患者的血糖水平控制在:糖化血红蛋白 ≤ 7%,空腹血糖 110 mg/dL,餐后血糖 180 mg/dL。(强推荐;证据级别中等)
临床医生得到这样的信息,根据自身经验,就可以在实践中做出更科学的决策。作为循证医学的终端用户,临床医生必须要懂得如何获取这些信息,以及如何理解相应的内容。例如上面的指南中,「强推荐」「证据级别中等」分别是什么意思?临床医生是必须要学习了才会充分理解的。
此外,科研工作者,包括临床医生、医学科学家、流行病学家、卫生统计学家等,他们一直在不断开展研究,作为「证据」创造者,也需要循证医学的方法来提升其研究的科学性和规范性,以创造有用的证据,好用的证据。
总之,循证医学面向的是临床研究者、指南制定者、临床医生。他们分别代表了「生产证据」、「评价和转化证据」、「使用证据进行临床决策」三个过程。
而对于一些业余爱好者,循证医学过于复杂、日新月异且场景化,实在不适合用做网络口水战的论据。
三、循证医学所说的「证据」到底是什么?
有人以为证据就是客观值,有的人认为证据就等于之前的一项研究,找到了研究支持就找到了证据。
要认识这个问题,必须要还原到真实的临床决策的场景中。这就是为什么非医学人士最好不要随意地引用这些概念,是因为一般人都没有站在过「临床决策」的麦克风前,理解会有偏差的。
一个典型的临床决策的过程:
一个因为心脏瓣膜病的患者,手术将原本的瓣膜置换为了人工机械瓣,体内有这种人工机械瓣会增大长血栓的风险,血栓的危害很大,比如跟随血液进入脑血管系统就会造成脑梗塞;可以让他长期服用抗凝药来预防血栓形成,但代价是他出血的风险会增大,最严重的可能会大出血。现在你是他的医生,要决定他术后是否服抗凝药,服哪种,服多大剂量,如果服用的话,如何监测以确保安全。
典型地纯经验主义的做法是,我以我二十年的阅历,认为吃xx药最好,因为以前有很多病人就是blablabla。这种做法的问题在于人的主观经验得出的结论是靠不住的,就像如何你在北京街上逛了三个月,然后根据个人见闻告诉你说你认为北京xx色的出租车最多,你肯定会怀疑,因为他不可能每天数数,即便每天数数,他的见闻也是片面的。这类论述很多,不再赘述。
而循证医学是要告诉我们,临床决策要依赖「证据」,而且这种「证据」一定是一种严谨观察和论证的结果,而非随意地见闻。
那「证据」就是指相关的某项医学研究呗?这样也是有歧义的。如果是这样,就有「一项证据」、「两项证据」,「证据等级」就变成了某项研究的等级,同一个问题下那么多研究,我们下结论的时候,应该选择哪项研究作为「证据」呢?常常有些问题下,相关研究的结论并不完全一致,我们如何去「循证」?
一位老师做出过精辟的总结:(循证医学的)「证据」就是经过系统评价后的信息。这里的「系统评价」不是指那种文章类型,而是指一个过程。扩展开应该是:
当回答一个临床问题时,我们将回答此问题的此前所有的相关信息进行系统地收集、评价、整合,得到一个可以切实参考的依据,叫「证据」。
加拿大、美国、英国的相关研究者意识到 Evidence 这个概念的模糊性时,依然没有去给证据下一个具体定义,而是常用了一个新的概念:Body of evidence。意思基本等同于上面那位老师所论述的「证据」。
Body of evidence = Confidence in estimate
我们从此只讨论一个医学问题下,证据的情况好还是不好,用以衡量我们结论的可靠性。
可能你看到这会儿还是概括不出一个概念来,可目前就是这样。你需要认清的是,证据就是临床决策的客观依据,证据的等级就是客观依据的可靠性,证据等级反应的是全貌而非单篇研究。
四、循证医学希望排除医生的个人经验吗?
错。循证医学只是反对无视最新的研究成果,仅凭个人有限的见闻就下结论和做决策,以及,希望将纷繁复发的证据进行科学地整合转化。循证医学认为,医生的个人经验是极为重要的。
根本上讲,医学是利弊权衡的过程。医生的个人经验在利弊权衡上起着举足轻重的作用。循证医学提供的只是每一种选择下的获益和风险,以及相应的把握。而对于最后的决断,只有这些远远不够。经验也是重要的。
例如第三点中,人工瓣膜置换后的抗凝的选择问题。当代的证据已经多到可以告诉你,吃哪种抗凝药,其预防血栓事件的概率有多大,而出血副作用的风险又有多大,不吃的话,分别又是什么情况,概率精确到百分位。但是,对于医生面对一个具体的病人而言,这样的信息足够了吗?远远不够。这些信息毕竟是基于人群的数据,是否适用于这个个体,对这个个体来说风险是相对统计值偏高还是偏低,这样的决断,只能依赖经验。
证据也关键,经验也关键,两者作用于不同的环节,丝毫没有冲突。
五、循证医学推崇的是随机对照试验至上吗?
不是。循证医学发展的初期(90年代)试图以研究设计(Study design,如随机对照试验、队列研究、病例对照、个案报道等)来对证据质量进行简单的划分,于是有了「证据金字塔」(请搜相关图片,有样式繁多的衍生),不久的实践中就发现这样的划分是武断的,缺乏实践意义的,因为研究设计并不是证据质量的全部,影响证据质量的因素起码有几十种,而且加起来的效应可能已经大于研究设计本身。此外,证据质量也非证据水平的全貌,还有些其他的因素影响着证据的参考价值。
此外,高质量的随机对照试验在很多领域是无法做到的,例如:罕见病(病例太少难以同期对照),高死亡率疾病(伦理限制),大部分的外科手术(伦理限制),传统医学(受试者纳入标准难以制定、干预中有大量混杂因素等)。
因此,当代的循证医学,早已不再把「证据金字塔」作为重点,取而代之的是包含方方面面的证据分级体系。
六、非随机对照试验的研究也可以很可靠吗?
有可能。在某些情况下,观察性研究的论证强度也可以大到高于随机对照试验的地步,甚至强大到没有必要再进行进一步的随机对照试验。
例如上世纪 40 年代的青霉素,刚面向临床就取得了难以置信的效果,经过治疗后的生存率、治愈率可以高于其他疗法几十倍至多。我们认为,如此大的效应量,不可能是任何系统误差能够导致的,这一定是疗效的显著。此时,对于青霉素抗感染疗效方面的观察性研究已经足以替代随机对照试验,给临床实践一个坚定的结论。这是效应量巨大使得观察性研究也足够可靠的例子。
还有其他情况,以后再展开。
七、高质量随机对照试验的结果也可能不可靠吗?
有可能。一些因素也可以使高质量、多中心的随机对照试验的参考价值严重削弱。
例如几年前爆发甲型 H5N1 禽流感时,专家推荐使用达菲作为预防和治疗的药物,但是同时也提示此推荐的证据依据是低级别的。你可能会觉得奇怪,达菲是是经过了多项极高质量的国际多中心双盲随机对照试验的论证的,为什么证据级别会低呢?因为,达菲的临床试验是在人类季节性流感的人群中进行的,H5N1 型和普通的流感是类似但不同的亚类,达菲作用机制可能对 H5N1 有效,但没有直接证据来证明这一点。如果此时达菲紧急用于人感染 H5N1 禽流感的治疗,并且统计出治愈率较高,事后再与没有使用达菲的病例进行结果比较,即便没有专门设立同期的对照组,没有随机没有双盲,其论证强度也可能会高于达菲此前的随机对照试验。这就是证据的间接性削弱证据的强度的例子。
还有很多因素其他,会影响我们对证据级别的评判。而到了实际决策时,还需要考虑利弊权衡等更多的方面。以后的专栏再来分享。