评论

花10分钟就能全面了解孟德尔随机化

原标题:花10分钟就能全面了解孟德尔随机化

点击蓝字 | 关注我们

孟德尔随机化入门系列 part 2

题记

上一期大家对孟德尔随机化有了一个初步感观的认识,那孟德尔随机化跟其他临床研究有什么不一样,它的核心竞争力是什么,为什么最近火爆各大公众号,内在的弯弯道道,我们已经帮你总结好了,还等什么,花个10分钟带你全面认识孟德尔随机化。

孟德尔随机化的定义

先了解一样事物,我们通常从定义入手。

孟德尔随机化(Mendelian Randomization, MR)是流行病学研究中评估病因推断的数据分析技巧,它在非实验数据中,使用遗传变异作为工具变量(Instrumental Variable, IV)来估计感兴趣的暴露因素与所关注结局之间的因果关系。

其中,“暴露因素”指代假定的因果风险因素,也称作中间表型,它可以是生物标志物(Biomarker)、人体测量指标(Physical measurement)或任何可能影响解决的风险因素(Risk factor)。一般我们将疾病列为结局,但不限于某种具体疾病。而非实验数据涵盖了所有观察性研究,包括横断面研究、纵向系列研究、队列研究和病例对照研究。MR大致原理示意图如下,大家先花1min牢记下图,之后解说跟它密切相关。

孟德尔随机化原理展示图

MR使用背景tips:当我们无法确认暴露因素对于结局的效应时,譬如可能存在混杂因素影响,可能是“暴露”和“结局”的实际因果关系倒置了,也可能是常规的随机对照试验因为伦理风险而难以进行(比如上世纪震惊全球的反应停事件、日本水俁事件,已知用药有害还设置治疗组有违伦理,因此无法进行RCT研究),这些时候,我们就可以考虑采用MR进行因果推断。

孟德尔随机化的本质和原理

疾病发展是多基因及多因素(环境、饮食等)共同作用形成的结果。举个例子:冠心病患者多见于有心脏病家族史的人群中,除了先天家族史影响,出生后长期高盐高糖高脂饮食也会增加冠心病的患病风险。

目前全基因组关联分析(GWAS)已经发现数十万甚至百万的遗传变异与疾病结果相关联,这些数据就是MR分析的基础。MR本质是通过 遗传数据来评估可改变的非遗传暴露因素所造成的 因果效应的一项技术。

MR理论能够得以成立,是因为 MR利用基因具有固定性及孟德尔第一和第二遗传定律,即减数分裂配子形成时,亲代的等位基因会随机分配给子代,基因与结局的关系不会受到出生后环境、社会经济、行为习惯等常见混杂因素的干扰,由此推导的因果关系时序具有合理性。听起来有点拗口,那我们来举个例子:

遗传位点在受精形成那一刻已经决定了,它不受后期生长发育、经济、文化等因素改变,这种确定性是MR采用遗传位点作为分析工具的最主要原因——不可改变性。如果我们发现位点A变异与肥胖有相关性,那么毫无疑问,是位点A变异影响了体型胖瘦。反过来说因为某个人肥胖,那他/她的遗传位点A变异了,也可能人家纯粹天天高脂高糖喂出来的肥胖,而遗传位点A是否变异在出生时已经决定了,所以由“肥胖”推理出“位点A变异”属于推理因果的方向反了,不大符合因果逻辑,属于颠倒了因果。

这样解释,是不是通俗易懂很多,瞬间明白啦~

MR使用要求tips:传统MR研究会运用大量遗传变异(genetic variants)来作为工具变量(IV),而遗传学研究的分子学性状(如基因表达或蛋白表达)通常只有少量遗传变异能作为IV,所以受多基因多生物通路影响的复杂表型(基因多效性,horizontal pleitropy),所相关的SNP也比较丰富。翻译成人话就是:MR想要玩得溜,受多因素影响的结局变量是上上签。进行分析时还要注意因果推理的方向。

孟德尔随机化的核心假设

单核苷酸多态性(Single Nucleotide Polymorphisms, SNP),是指在基因组上单个核苷酸的变异,包括转换、颠换、缺失和插入,形成的遗传标记。也是MR数据分析的基础。

那什么样的基因型能用于MR分析,是可以随便选的吗?

显然并不是,基因型(工具变量)还需要满足以下条件:

工具变量(基因型)需要与暴露因素X(表型)强相关(假设1,关联性假设,相关系数>0.8)。如果使用弱工具变量,所得结果容易出现偏倚。

工具变量不能与其它任何可能的混杂因素相关(假设2,独立性假设)。例如:性别、年龄、体重等用于人群分层的因素需要剔除。

工具变量(基因型)不能与结果直接相关(假设3,排他性限制,工具变量只可以通过暴露因素影响结局)。其他可能影响因素的包括多效性等。

其他假设:不存在选型交配。

孟德尔随机化分析流程

知道了MR分析原理、工具变量的选取,然后我们继续了解MR分析流程的步骤:

01

读取暴露因素的GWAS数据。

02

选取合适的工具

通常设置为P< 5×10-8,必要时进行clumping。

03

读取结局变量的GWAS数据

提取上述工具变量的SNP(变异频率大于1%的单核苷酸变异)。

04

数据预处理

对暴露因素与结局的GWAS数据进行预处理,使其格式统一化。

05

MR分析SNPs与结局的关系

默认使用五种方法为MR Egger,Weighted median,Inverse variance weighted,Simple mode ,Weighted mode,多用效应值(β)或者风险值(OR)表示。

06

分析结果可视化

包括散点图、森林图和漏斗图等,散点图斜率代表暴露因素对结局的影响大小(causal effect)。

上述分析流程非常清晰明了,还有MR STROBE写作流程保驾护航,可谓人有多大胆,文有多大产。分析流程可参考下图

常见孟德尔随机化分析类型

孟德尔随机化与随机对照实验的异同

同为进行因果推断的方法,MR跟RCT之间有什么联系?对标循证医学中金字塔顶端的RCT,MR有什么一技之长,或者,我们可以通过下面的比较图来了解

图:孟德尔随机化研究和随机对照分组试验的对比

传统研究暴露因素和结局之间的因果关系,通常高举前瞻性随机试验(RCT),但RCT费时、费力、费钱,同时部分RCT不被伦理支持。在许多不能进行RCT的情况下,我们可使用基因型来替代暴露因素进行因果关系推断,这种做法相当于自然界的RCT。采用RCT+MR这套组合拳,取长补短,大大提高了病因学研究的效率和可行性,现已成为后基因时代流行病学研究的热点。

孟德尔随机化的优势

孟德尔随机化以基因型作为工具变量,具有自身的独特优势:

01

因果方向确定

遗传相关中的因果关系方向是确定的,遗传多样性可导致不同的表型,反之则不成立。

02

避免混杂因素影响

观察性研究当中所测量的环境暴露因素或多或少都受行为、社会、心理等因素相关,从而造成偏倚,而基因型代表的遗传变异不受此类因素影响。

03

可靠性高

相对其他类型而言,遗传变异与其效应的测量误差较小。

04

并不一定要找到因果SNP

一个与因果SNP处于连锁不平衡(linkage disequilibrium, LD)的SNP即可满足假设条件。LD指两个或两个以上不同的基因变异同时出现在同一条染色体上,这些基因不是完全独立的,一起出现的几率比较高。

05

目前GWAS的数据相对容易获取

孟德尔随机化的数据库

听了那么多屠龙术,是不是已经磨刀霍霍马上大干一场。巧妇难为无米之炊,这份MR相关数据库列表,立马安排上。

IEU OpenGWAS project (https://gwas.mrcieu.ac.uk/)

优点:包含42,484 个GWAS摘要数据集的214,725,223,303 个遗传关联的数据库,可以和TwoSampleMR包完美配合,十分方便

缺点:部分数据采集时间比较久远,R包下载文件不方便

GWAS catalog( https://www.ebi.ac.uk/gwas/ )

优点:可多种方式进行搜索(publications、variants、traits、genes、region等),表型信息规范

缺点:有时候需要开国外代理模式才能使用,网页比较慢

nealelab —UK Biobank英国生物银行的汇总数据集

(http://www.nealelab.is/uk-biobank )

优点:数据全面,整理很有条理

缺点:英国数据库,完整版需要花钱注册(UKB数据使用费用分为三档:3000英镑/6000英镑/9000英镑),有免费不需要注册的2018年版本数据,但数据时间可能会相对滞后。

PheWeb全表型组关联研究

(https://pheweb.jp/downloads)

优点:包含Biobank Japan,以及UKB等欧洲样本的GWAS结果,部分弥补了GWAS在全基因组范围发掘基因多效性方面的不足

缺点:在植物等领域方面的应用不多(几乎没有),R包应用不太友好

FinnGen-tutkimushanke vie suomalaiset löytöretkelle genomitietoon | FinnGen( https://www.finngen.fi/fi)

优点:数据较新、包括新冠的GWAS数据,页面布局非常赏心悦目

缺点:数据需要官网注册(免费),但数据在谷歌云上,国内下载需要自己想办法

此外,以代谢组学数据库A Table of all published GWAS with metabolomics、

早期生长联盟数据库EGG、慢性肾病数据库CKDGEN、骨质疏松联盟GEFOS等单个表型的GWAS数据库等待大家去挖掘~

好了,以上就是今天的介绍内容,看到这里,希望小伙伴们都已经对孟德尔随机化分析方法有比较明确的认知。想马上拆解范文进行实战?

好咧,马上安排。

下一期,我们将对一篇两样本MR的范文进行拆解,进一步加深大家对MR的理解。

我是暁,我们下期见。

*

END

撰文丨

排版丨 顶 顶

>>>>

参考文献:

[1] Melinda C. Mills, Nicola Barban, and F. C. T. An Introduction to Statistical Genetic Data Analysis. (2020).

SCI发文蓝海孟德尔随机化来袭!!

比临床更简单

发文速度快

无需做实验

详情请咨询栗子糕

往期回顾

BREAK AWAY

不做实验少代码,SCI发文新蓝海,孟德尔随机化了解一下 2023-03-13

双向两样本 牙 周炎 vs 银屑病 2023-03-25

·

返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
大家都在看
推荐阅读