那些严重不实或错误的试验结果在污染医学文献信息的同时,也浪费了公共研究资源,还可能会对医疗服务的提供者、使用者和政策制定者产生误导
随机对照试验(RCTs)被认为是对新疗法进行评估的“金标准”研究方法。但在中国的医学研究文献中,所谓的RCTs九成以上不真实。“随机对照”沦为毫无科学性的廉价名词。
根据一项新近在Trials上刊登的研究[1],1994年1月至2005年6月期间发表在中国医学刊物上的自称为随机对照试验的文章中,仅有不到7%的试验能够被证实严格符合随机对照试验的标准。那些严重不实或错误的试验结果在污染医学文献信息的同时,也浪费了公共研究资源,还可能会对医疗服务的提供者、使用者和政策制定者产生误导。
“伪随机”污染
这项调查由来自四川大学中国循证医学中心和渥太华医院研究所的研究人员共同完成。他们首先在中国知网(CNKI)的电子数据库中就20种常见疾病的随机对照试验进行检索,对1994年1月至2005年6月期间在中文期刊上发表的试验进行了调查。
在搜索得到的3137篇含有RCTs的文章中,1452篇发表在411种西医类期刊、1685篇发表在352种中医和中西医结合类期刊上。
为了确定这些试验中有多少符合将参与者随机分配到治疗组别的公认标准,接受过培训的调查人员通过电话采访了文章的第一作者或合作作者。
除去重复发表,无法联络到作者和作者拒绝回答的样本后,在余下获得调查结果的2235篇经过同行评阅的中文文章中,只有207个试验符合真正的RCTs标准。就RCTs的可信性比率而言,正规医学研究和传统中医药研究之间并没有差异。
这篇文章的通讯作者吴泰相对《科学新闻》表示:“研究所选取的20种疾病是常见病,相应的临床试验也较多。有些杂志因偏重特定领域,不发表或很少发表与这些疾病相关的文章,所以没有出现在结果中。”
这项研究自2006年开始,所以选取的文章截止于2005年年中,吴泰相表示后续研究仍在继续,新的调查范围将包含2008年12月30日以前的文章,调查数据已经分析完毕。对于现状是否有所改善的问题,他只是简单表示“改善不大”,具体的数字要等到文章发表以后。
对于这一调查结果,《中华医学杂志》的一位高姓编辑并不感到奇怪:“国内很多临床研究中的RCTs经不起严格推敲,达不到国际上的标准。”
一位身在广州三级甲等医院肿瘤中心的主治医师,同时也是丁香园循证医学与临床运用讨论版版主的艾望(化名)告诉《科学新闻》:“如果按照国际标准(设计、执行和报告RCTs的统一标准CONSORT Statement)要求,国内的大多数自称为RCTs的文章都没达到标准!”
知识与道德的缺失
根据这项调查研究,在不符合RCTs标准的文章中,85.6%的作者(1913例)因为未能理解RCTs的设计原则,误将其所做的非RCTs称为RCTs。5.1%的作者(115例)了解RCTs的原则,但有意将其所做的非RCTs称为RCTs。这表示很多临床人员缺乏试验设计的知识或罔顾科研道德与社会责任。
中国的临床科研设计教育起步晚,1983年才在华西医科大学和上海医科大学开始,逐渐推广到13所部属院校,但至今仍有很多医学院校没有开设相关课程。全国多数医务人员仍未接受过相关培训。吴泰相认为这正是出现众多试验设计缺陷的根源之一,“而且受限于各种条件,现状一时难以改变。”吴泰相说。
《中华医学杂志》的高编辑也认为开展RCTs培训对医务人员的作用非常大:“一定要进行RCTs培训!应该让他们知道什么是真正的RCTs,如何进行RCTs,什么情况下需要RCTs,什么情况下不需要RCTs。”
在作为医师的艾望看来,最近几年相关培训缺乏的现状其实有很大改观,很多医学研究中心已经意识到RCTs的重要,并且开始开展RCTs。初始阶段主要是通过和国际接轨来实现。不过,他强调要清醒地认识到国内与国际水平上的差距,并且,“临床科研必须严谨!如果现在做不到严格的RCTs,不能随便宣称自己的研究是RCTs”。
艾望建议,对于自称是RCTs,又没有给出详细信息的文章应持谨慎态度,从各方面的信息判断其真实性,例如单位的具体条件、临床试验注册、知情同意书和详细具体的计算机随机方法等。
虚掩的评审“门”
研究所调查的文章涉及753种期刊。对于随机对照试验不真实的文章发表在哪些期刊的问题,吴泰相含蓄地表示:“这些文章发表于750多种杂志。”
吴泰相告诉《科学新闻》:“国内存在期刊过滥的问题。有的刊物发行量很小,几乎都用于赠送。但因为牵扯甚广,一时难以改变。”
按照国际通行的学术期刊规定,所有的文章在发表前都要经过同行评阅的审稿程序。但是,“很多评阅人本身对某些专业领域不了解。特别是对临床试验设计不熟悉。还有些评阅人虽然有临床试验设计的能力,但在评阅过程中却没有仔细检查试验的真实性。”吴泰相说。
艾望与吴泰相持相同观点。他认为,相当部分文章的评阅人没有亲自组织或执行过严谨的RCTs,对RCTs认识不够深入,或者已经默认了国内标准低于国际标准,或者审稿过程不客观公正而是受到其他如稿源限制、杂志生存和裙带关系等的影响。
高编辑的看法则不尽相同:“按照循证的标准,很多临床经验总结好像都没有意义。对于所有的研究都要求按照严格的循证标准实际上不利于临床研究的发展。期刊方面希望给临床科研人员一个学术交流的园地。”
“同一位专家在给不同的刊物审稿时所用标准也不一致。为一些基层刊物审稿时,往往对并不符合RCTs标准的试验放宽了标准。如果对地方性刊物也采用严格标准来要求,这些刊物很难生存。”高编辑说。
不过高编辑也认为:“无论作者不自知或有意造成了试验设计有缺陷或描述不实,审稿专家都应该指出问题,要求作者说明;编辑在审阅时也应指出问题。由这两道程序保证文章的质量。”
《英国医学杂志》(BMJ)的一位编辑则表示,永远不会降低对研究科学性的要求。对于治疗性研究多发表RCTs,而不发表以下文章:无对照组(或对照不是合适)的病例研究或干预研究,非随机性分组,利用病例记载、图表和其他常规收集的病案作出的回顾性研究等,因为这些研究的科学性不够[2]。
吴泰相认为国际上的同行评阅也并非十全十美。在国际上,评阅人也只能通过稿件的字面来对稿件所涉及的研究设计、统计学方法、试验方法、结果和结论以及参考文献的引用进行评审,并不会联系文章的作者核对真实性。“这与我们研究所采用的调查方法不同,有其自身的局限性。所以我们呼吁建立同行评阅的国际规范。”吴泰相说。
被考评驱动
根据卫生部的数据,2008年中国已经有超过208万的执业医师和助理医师。临床试验主要由这些医师完成。
高编辑认为医师们群起追求RCTs的倾向大致有两方面的原因:一是RCTs作为临床科研手段确有长处,应当推广;二是与科研的评价体系有关,有时候是否是循证被用来作为判断研究是否有价值的标准。
吴泰相对RCTs泛滥的成因也进行了分析:首先,中国的医疗人员职称晋升制度对文章有要求。发表文章已成为评职称的必要条件。“其实有很多临床医生并不想写文章”。其次,有些临床研究经验总结或观察性研究并不需要随机对照试验,但有相当多杂志要求其发表的研究含有RCTs。而且,在调查出问题的研究中,有50%以上由各级政府资助。研究项目的结题和申请新的项目也对文章有要求。
艾望认为:“在目前的评价体系中,文章发表占很大比重,有偏重于研究的倾向,这值得商榷。”他表示,年轻医师只有在基本生存和个人发展条件满足之后,才会有更多的时间精力发现临床工作中需要用科学方法解决的问题,并通过基础实验、转化性研究和RCTs验证。
丁香园的负责人李天天则表示支持临床医生发表文章。他认为,一位作者的文章基本上能反映其专业水平和对自身领域的理解程度。基层的医生也普遍认为这一考评标准相对合理。“虽然用文章来考评医生的专业水平并不十分公平,但却是现有的最有效的评价标准,是不公平中的相对公平。”李天天说。
李天天进一步分析说:“真正给临床医生造成不良影响的考评制度是各种文章外的附加标准。”例如,很多医院规定病例报告的文章不能计入考评。这样真正总结临床经验的病例报告不能给临床医生的职业发展带来促进作用。
“在强调文章影响因子的考评标准驱动下,医生转入与临床研究并不直接相关但影响因子较高的基础研究类期刊,使得他们的研究对象从人转向小白鼠等试验动物,造成很多临床医生基础研究能力强而临床治疗能力弱的怪现象。实际上,削弱了医院的临床治疗能力。”李天天说。
亡羊补牢
尽管随机对照试验的合格率低得让人震惊,但也不是全无改变的可能。
吴泰相的调查显示,大学附属医院进行的RCTs的真实性显著高于在三级或二级医院进行的RCTs。三级医院试验的真实性也显著高于二级医院的试验。略为让人欣慰的是,所有上市前的药物临床试验的随机对照试验都符合标准。
吴泰相说:“因为强制的规定和各地的国家药物临床试验基地,我们所调查的新药临床试验没有问题。这证明我们完全能够做到良好的随机对照试验。”
高编辑亦有同感:“新药临床试验、大学附属医院、高级别的医院和中心临床试验的设计较严格。相对之下,医院或科室发表自己的试验结果问题就会多一些。”
虽然实现严格的RCTs很难,但根据艾望的经验,国内完全可以做到合乎标准的RCTs。“只是需要一个医务人员的临床科研水平逐渐提高,越来越多的患者从临床研究中体会到切身的好处,两方面相互促进循序渐进的过程。这个过程可以通过逐步学习和参与国际或国内大型医学研究机构发起的多中心的研究而缩短其漫长的进程。”艾望说。
艾望举了一项阿斯利康公司的国际多中心研究的例子:当时这项研究得出了阴性结果,文章如实发表在《柳叶刀》杂志上,整条产业链因此蒙受巨大的经济损失。但是,从这些严谨数据的亚组分析发现,某些特殊类型的人群可从该药物中显著获益。随后,基础临床转化性研究有了新发现,推动了后续研究。
对于来自评价体系的压力,同样有很多的人在进行反思。
中华医学会杂志社社长兼总编辑游苏宁则在一篇文章中表示:“单篇论文被引次数将成为未来评价科研成果和科研人员的重要指标。”
李天天说:“因为现在很多医生同时肩负‘医教研’三方面的任务,压力很大,科研能力相对并不是很强。三甲以下的医院就不应再强求担负科研课题了。”
艾望的建议则更加具体。他认为尽管RCTs的证据力度是最高级别的,但RCTs标准一般适合治疗方面的干预性研究,并不适合所有的研究。此外,病例报告对临床研究也有非常重大的意义,很多开创性的研究和发现都是从单个病例开始。如果不具备进行RCTs的条件,可以先发表低证据级别的个案报道和回顾性的病例总结分析、多因素分析、同期对照研究等。
艾望还表示,没有预先在国际四大临床试验注册网注册的研究目前很难发表在好的杂志上,这些网站同时也发挥了协助、监督临床研究执行的作用,四川大学华西医学中心李幼平教授也建立了适合中国国情的临床试验注册网。
针对盲目追求RCTs的现象,高编辑表示,她所在的《中华医学杂志》接受高级别医院的投稿较多,对于试验较弱的投稿,并不强求有RCTs,可以只是记录病例,作为经验交流处理。“并不是所有的文章都要有RCTs。在涉及到人的试验中很难实现完全的随机。”她说。
艾望说:“如果不具备相应条件的医院或科室,建议只需遵循标准治疗执行,不宜担负涉及人体的随机对照临床科研任务。否则只会促进作假,勉为其难地执行甚至容易引发医疗纠纷。”
《科学新闻》记者查阅了23篇近半年来发表的自称为RCTs的医学类文章,其中只有4篇在文章中具体提及试验采用的随机化方法。
记者电话联络到其中一篇文章的作者,其在河南汝阳一所二甲综合医院任职。以下为双方的对话:
问:我看到你今年4月在《中国医药指南》上发表的一篇文章,就是关于联合用药治疗胃溃疡100例的那篇文章。其中只是说进行了随机对照观察,但并没有具体提用的是什么样的随机方法,所以我想问一下,你当时用的是什么样的随机方法?
答:随机方案就是从门诊病号中,随机分为两组,一组用西医治疗,一组用中西医结合治疗。
问:你在摘要里明确写了对90例患者进行了随机对照观察,我想知道你是怎么进行随机分组的?然后,又是怎么做的这个研究的计划?
答:疑似病人、门诊病人根据他的症状确诊后,用胃镜确诊以后,然后根据年龄、性别随机分的,没有啥严格的区分标准。
问:你采用了什么样的随机化的技术?比如说用计算机或数字表之类的……
答:没有,没有!
问:你能再说一遍你是怎么分的吗?
答:你比如说,门诊病人今天,好比是1、3、5或2、4、6这样分的……
问:哦,大概是按照星期的单双数来分的,对吗?
答:对!
问:那就是说在你这个研究里面,如果有新来的病人的话,就是根据他来的那个日期,比如说周二到一组,周三到另外一组,对吧?
答:对!对!
问:哦,大致明白了,好,非常感谢你!
答:没有事,好。
[1]Trials, 2009, doi:10.1186/1745-6215-10-46
[2]《中华医学杂志》, 2007, 87:1680-1681