花10分钟就能全面了解孟德尔随机化_因素_遗传

点击蓝字 | 关注我们

孟德尔随机化入门系列 part 2

题记

上一期大家对孟德尔随机化有了一个初步感观的认识，那孟德尔随机化跟其他临床研究有什么不一样，它的核心竞争力是什么，为什么最近火爆各大公众号，内在的弯弯道道，我们已经帮你总结好了，还等什么，花个10分钟带你全面认识孟德尔随机化。

孟德尔随机化的定义

先了解一样事物，我们通常从定义入手。

孟德尔随机化（Mendelian Randomization, MR）是流行病学研究中评估病因推断的数据分析技巧，它在非实验数据中，使用遗传变异作为工具变量（Instrumental Variable, IV）来估计感兴趣的暴露因素与所关注结局之间的因果关系。

其中，“暴露因素”指代假定的因果风险因素，也称作中间表型，它可以是生物标志物（Biomarker）、人体测量指标（Physical measurement）或任何可能影响解决的风险因素（Risk factor）。一般我们将疾病列为结局，但不限于某种具体疾病。而非实验数据涵盖了所有观察性研究，包括横断面研究、纵向系列研究、队列研究和病例对照研究。MR大致原理示意图如下，大家先花1min牢记下图，之后解说跟它密切相关。

孟德尔随机化原理展示图

MR使用背景tips：当我们无法确认暴露因素对于结局的效应时，譬如可能存在混杂因素影响，可能是“暴露”和“结局”的实际因果关系倒置了，也可能是常规的随机对照试验因为伦理风险而难以进行（比如上世纪震惊全球的反应停事件、日本水俁事件，已知用药有害还设置治疗组有违伦理，因此无法进行RCT研究），这些时候，我们就可以考虑采用MR进行因果推断。

孟德尔随机化的本质和原理

疾病发展是多基因及多因素（环境、饮食等）共同作用形成的结果。举个例子：冠心病患者多见于有心脏病家族史的人群中，除了先天家族史影响，出生后长期高盐高糖高脂饮食也会增加冠心病的患病风险。

目前全基因组关联分析（GWAS）已经发现数十万甚至百万的遗传变异与疾病结果相关联，这些数据就是MR分析的基础。MR本质是通过 遗传数据来评估可改变的非遗传暴露因素所造成的 因果效应的一项技术。

MR理论能够得以成立，是因为 MR利用基因具有固定性及孟德尔第一和第二遗传定律，即减数分裂配子形成时，亲代的等位基因会随机分配给子代，基因与结局的关系不会受到出生后环境、社会经济、行为习惯等常见混杂因素的干扰，由此推导的因果关系时序具有合理性。听起来有点拗口，那我们来举个例子：

遗传位点在受精形成那一刻已经决定了，它不受后期生长发育、经济、文化等因素改变，这种确定性是MR采用遗传位点作为分析工具的最主要原因——不可改变性。如果我们发现位点A变异与肥胖有相关性，那么毫无疑问，是位点A变异影响了体型胖瘦。反过来说因为某个人肥胖，那他/她的遗传位点A变异了，也可能人家纯粹天天高脂高糖喂出来的肥胖，而遗传位点A是否变异在出生时已经决定了，所以由“肥胖”推理出“位点A变异”属于推理因果的方向反了，不大符合因果逻辑，属于颠倒了因果。

这样解释，是不是通俗易懂很多，瞬间明白啦~

MR使用要求tips：传统MR研究会运用大量遗传变异（genetic variants）来作为工具变量（IV），而遗传学研究的分子学性状（如基因表达或蛋白表达）通常只有少量遗传变异能作为IV，所以受多基因多生物通路影响的复杂表型（基因多效性，horizontal pleitropy），所相关的SNP也比较丰富。翻译成人话就是：MR想要玩得溜，受多因素影响的结局变量是上上签。进行分析时还要注意因果推理的方向。

孟德尔随机化的核心假设

单核苷酸多态性（Single Nucleotide Polymorphisms, SNP），是指在基因组上单个核苷酸的变异，包括转换、颠换、缺失和插入，形成的遗传标记。也是MR数据分析的基础。

那什么样的基因型能用于MR分析，是可以随便选的吗？

显然并不是，基因型（工具变量）还需要满足以下条件：

☑工具变量（基因型）需要与暴露因素X（表型）强相关（假设1，关联性假设，相关系数＞0.8）。如果使用弱工具变量，所得结果容易出现偏倚。

☑ 工具变量不能与其它任何可能的混杂因素相关(假设2，独立性假设)。例如：性别、年龄、体重等用于人群分层的因素需要剔除。

☑ 工具变量（基因型）不能与结果直接相关(假设3，排他性限制，工具变量只可以通过暴露因素影响结局)。其他可能影响因素的包括多效性等。

☑ 其他假设：不存在选型交配。

孟德尔随机化分析流程

知道了MR分析原理、工具变量的选取，然后我们继续了解MR分析流程的步骤：

读取暴露因素的GWAS数据。

选取合适的工具

通常设置为P＜ 5×10-8，必要时进行clumping。

读取结局变量的GWAS数据

提取上述工具变量的SNP（变异频率大于1%的单核苷酸变异）。

数据预处理

对暴露因素与结局的GWAS数据进行预处理，使其格式统一化。

MR分析SNPs与结局的关系

默认使用五种方法为MR Egger，Weighted median，Inverse variance weighted，Simple mode ，Weighted mode，多用效应值(β)或者风险值(OR)表示。

分析结果可视化

包括散点图、森林图和漏斗图等，散点图斜率代表暴露因素对结局的影响大小（causal effect）。

上述分析流程非常清晰明了，还有MR STROBE写作流程保驾护航，可谓人有多大胆，文有多大产。分析流程可参考下图

常见孟德尔随机化分析类型

孟德尔随机化与随机对照实验的异同

同为进行因果推断的方法，MR跟RCT之间有什么联系？对标循证医学中金字塔顶端的RCT，MR有什么一技之长，或者，我们可以通过下面的比较图来了解

图：孟德尔随机化研究和随机对照分组试验的对比

传统研究暴露因素和结局之间的因果关系，通常高举前瞻性随机试验（RCT），但RCT费时、费力、费钱，同时部分RCT不被伦理支持。在许多不能进行RCT的情况下，我们可使用基因型来替代暴露因素进行因果关系推断，这种做法相当于自然界的RCT。采用RCT+MR这套组合拳，取长补短，大大提高了病因学研究的效率和可行性，现已成为后基因时代流行病学研究的热点。

孟德尔随机化的优势

孟德尔随机化以基因型作为工具变量，具有自身的独特优势：

因果方向确定

遗传相关中的因果关系方向是确定的，遗传多样性可导致不同的表型，反之则不成立。

避免混杂因素影响

观察性研究当中所测量的环境暴露因素或多或少都受行为、社会、心理等因素相关，从而造成偏倚，而基因型代表的遗传变异不受此类因素影响。

可靠性高

相对其他类型而言，遗传变异与其效应的测量误差较小。

并不一定要找到因果SNP

一个与因果SNP处于连锁不平衡（linkage disequilibrium, LD）的SNP即可满足假设条件。LD指两个或两个以上不同的基因变异同时出现在同一条染色体上，这些基因不是完全独立的，一起出现的几率比较高。

目前GWAS的数据相对容易获取。

孟德尔随机化的数据库

听了那么多屠龙术，是不是已经磨刀霍霍马上大干一场。巧妇难为无米之炊，这份MR相关数据库列表，立马安排上。

IEU OpenGWAS project (https://gwas.mrcieu.ac.uk/)

优点：包含42,484 个GWAS摘要数据集的214,725,223,303 个遗传关联的数据库，可以和TwoSampleMR包完美配合，十分方便

缺点：部分数据采集时间比较久远，R包下载文件不方便

GWAS catalog( https://www.ebi.ac.uk/gwas/ )

优点：可多种方式进行搜索（publications、variants、traits、genes、region等），表型信息规范

缺点：有时候需要开国外代理模式才能使用，网页比较慢

nealelab —UK Biobank英国生物银行的汇总数据集

(http://www.nealelab.is/uk-biobank )

优点：数据全面，整理很有条理

缺点：英国数据库，完整版需要花钱注册（UKB数据使用费用分为三档：3000英镑/6000英镑/9000英镑），有免费不需要注册的2018年版本数据，但数据时间可能会相对滞后。

PheWeb全表型组关联研究

(https://pheweb.jp/downloads)

优点：包含Biobank Japan，以及UKB等欧洲样本的GWAS结果，部分弥补了GWAS在全基因组范围发掘基因多效性方面的不足

缺点：在植物等领域方面的应用不多(几乎没有)，R包应用不太友好

FinnGen-tutkimushanke vie suomalaiset löytöretkelle genomitietoon | FinnGen( https://www.finngen.fi/fi)

优点：数据较新、包括新冠的GWAS数据，页面布局非常赏心悦目

缺点：数据需要官网注册（免费），但数据在谷歌云上，国内下载需要自己想办法

此外，以代谢组学数据库A Table of all published GWAS with metabolomics、

早期生长联盟数据库EGG、慢性肾病数据库CKDGEN、骨质疏松联盟GEFOS等单个表型的GWAS数据库等待大家去挖掘~

好了，以上就是今天的介绍内容，看到这里，希望小伙伴们都已经对孟德尔随机化分析方法有比较明确的认知。想马上拆解范文进行实战？

好咧，马上安排。

下一期，我们将对一篇两样本MR的范文进行拆解，进一步加深大家对MR的理解。

我是暁，我们下期见。

END

撰文丨暁

排版丨顶顶

>>>>

参考文献：

[1] Melinda C. Mills, Nicola Barban, and F. C. T. An Introduction to Statistical Genetic Data Analysis. (2020).

SCI发文蓝海孟德尔随机化来袭！！

比临床更简单

发文速度快

无需做实验

详情请咨询栗子糕

往期回顾

BREAK AWAY

不做实验少代码，SCI发文新蓝海，孟德尔随机化了解一下 2023-03-13

双向两样本牙周炎 vs 银屑病 2023-03-25

返回搜狐，查看更多

责任编辑：

Happy Eng Class

花10分钟就能全面了解孟德尔随机化