“深度学习”是生信的未来!国家生物信息中心高远团队,神导+神刊

大家好,今天跟大家分享一篇题为CIRI-Deep Enables Single-Cell and Spatial Transcri ptomic Analysis of Circular RNAs with Deep Learning(CIRI Deep利用深度学习实现环状RNA的单细胞和空间转录组学分析)环状RNA(circRNA)是一种特殊转录物,以其独特的表达模式备受关注。尽管单细胞和空间转录组技术发展,但分析其中的circRNA仍受限。

研究背景

环状 RNA (circRNA) 是一类重要但相对未被探索的转录本,以其组织和细胞类型特异性表达模式而闻名。尽管单细胞和空间转录组学取得了进步,但由于 circRNA 测序效率的固有限制,这些技术在有效分析 circRNA 方面面临困难。

为了解决这一差距,提出了一种深度学习模型 CIRI-deep,用于全面预测 circRNA 对不同类型 RNA-seq 数据的调控。CIRI-deep 在 2500 万个高置信度 circRNA 调控事件的广泛数据集上进行了训练,并在测试和遗漏数据上都取得了高性能,确保了其从 RNA-seq 数据推断差异事件的准确性。

结果表明,CIRI-deep 及其改编版本能够进行各种 circRNA 分析,包括簇或区域特异性 circRNA 检测、BSJ 比率图可视化以及 trans 和 cis 特征重要性评估。总的来说,CIRI-deep 的适应性扩展到所有主要类型的 RNA-seq 数据集,包括单细胞和空间转录组数据,这无疑将拓宽 circRNA 研究的视野。

见图一

基于深度学习的差异剪接 circRNA (DSC) 事件预测模型及其应用。

图一

(A,B) CIRI-deep 的训练数据概述。我们从 circAtlas 和 RNA Atlas 收集了 397 个人类 RNA-seq 数据 (总 RNA,测序深度> 100 M),并应用 CIRIquant 量化每个样品的 circRNAs 连接比。通过 DARTS BHT 分析每个样品对,以产生高置信度的差异或未改变的剪接 circRNA 事件。热图中显示了每个组织的样本数量和 circRNA、每个组织对之间的样本对和事件。

(C) CIRI-deep 的示意图框架。CIRI-deep 通过深度神经网络对 circRNA 的 cis 特征和样品对(总 RNA 或 poly(A) 富集 RNA)的 RBP 表达进行训练。在总 RNA RBP 表达水平和 poly(A) 选择数据 RBP 表达水平上进行 CIRI 深度训练的输出分别是 circRNA 被差异剪接的概率和 circRNA 不变的概率,样品 a 中较高的连接比,或样品 b 中较高的连接比。

见图二CIRI-deep 准确预测差异剪接的 circRNA。

图二

(A) 总共有 39896 个样本对用于训练 CIRI-deep,100 个样本对被拆分为遗漏样本对。对于训练样本对中的每个样本对,1% 的事件被拆分为测试事件。

(B) 测试数据(左)和省略数据(右)的性能。对于测试数据,绘制了具有 10 个以上测试事件的样本对。Y 轴和 X 轴表示每个样品对中的样品对数和 AUROC。整个测试事件和遗漏事件的 AUROC 被标记并绘制为虚线。

(C) 对省略样本对(左 2)和公共数据(右 2)的泛化。每个点代表 CIRI-deep 预测的两个样品中表达的 circRNA 的差异剪接概率。CF: 结膜成纤维细胞;MEC: 乳腺内皮细胞;DCM: 扩张型心肌;CESC:宫颈鳞状细胞癌和宫颈内膜腺癌。

(D) 宫颈癌数据集中结合(信息模型)或不结合(平面模型)CIRI-deep 的统计推理性能。基本实况来自具有仿行的样本对。使用 t 检验计算 P 值,***p < 0.001。

(E) Δ|psi|绝对值、平面模型、仅 CIRI-deep 和 info 模型在预测不同深度 (5 M、15 M、25 M) 样品对之间 circRNA 事件方面的性能。使用 t 检验计算 P 值,*p < 0.05,**p < 0.01,***p < 0.001。F) 平面模型和信息模型在 600 个 15 M 样本对中的性能。

见图三组织特异性特征有助于组织特异性预测。

图三

(A) 由具有排列 ci 和 trans 特征的总 RNA 数据集训练的模型的 AUROC 损失 (%)。剪接、翻译、mRNA 转运和 RNA 解旋酶相关的 RBP 是从 GO 数据库中收集的。

(B) 以中枢神经系统为例,使用适应的整合梯度 (AIG) 识别重要的组织特异性 cis 和 trans 特征的工作流程。

(C) 预测中共同重要贡献的前 15 个顺式特征的 IG 值。

(D) 前 50 个 RBP 的 IG 值(按行缩放)在 9 个组织中显着。部分组织特异性 RBP 标记在右侧。

(E) 在中枢神经系统中具有显着意义的前 12 个剪接相关 RBP 和 cis 特征。Y 轴表示根据每组基线点和目标点计算的 IG 值。

(F) 小鼠大脑中敲除 Nova1 和 Nova2 后受调节的 circRNA(左)。Nova1 和 Nova2 围绕上调、下调和不受调节的 circRNA 的富集模式(右图)。

见图四

预测 scRNA-seq 簇之间差异剪接的 circRNA。

图四

(A) 热图是一个多类混淆矩阵,分为 3 类:无差异、样品 A 中的交接比较高,样品 B 中的交接比较高。每行代表被鉴定为无差异的 circRNA,在金标准总 RNA-seq 数据集中 A 更高或 B 更高。每列表示每行中分为三类的 circRNA 的百分比,分别具有 poly(A) 衍生的读数或 CIRI-deepA。

(B) 与 TCGA 数据集中的成对对照相比,预测肿瘤样本中上调或下调的 circRNA 数量。如果预测 CircRNAs 的连接比在肿瘤中较高,或在超过 35% 的样品对中成对对照,则 CircRNA 被鉴定为上调或下调。

(C) Smart-seq2 数据集中神经胶质瘤小胶质细胞和外周小胶质细胞之间的两个高置信度差异剪接事件 (GSE84465)。对检测到 circRNA 的细胞进行标记,其大小和颜色表示细胞中 circRNA 的反向剪接读数数和连接比。

(D) 肿瘤和外周组织中某个细胞类型簇之间 10 个高置信度差异剪接事件的预测概率(p > 0.9 或 p < 0.1,肿瘤或外周组织中的细胞数> 10)。

(E) Smart-seq2 数据的统计推断 (DARTS BHT) 与来自不同数量细胞中检测到的 circRNA 事件的 10X scRNA-seq 数据的模型预测之间的一致性 (%)。

(F) 8 个高置信度标记 circRNAs 的预测准确性箱线图。使用 t 检验计算 P 值,n = 8,*p < 0.05。

(G) 在 10X scRNA-seq 数据集中预测标记 circRNA。合并了 Smart-seq2 神经胶质瘤 (GSE84465) 和 10X 神经胶质瘤 (GSE131928) 数据集,包括 4 个常见集群 (髓系、肿瘤 1、肿瘤 2 和 OPC)。在 Smart-seq2 数据集中,通过 Wilcoxon 秩检验 (p < 0.05,表达 circRNA 的 circRNA 数量 > 5) 测试标记 circRNA,具有较高标记 circRNA 连接比的簇用虚线突出显示。对标记 circRNAs 的预测是为了比较每个簇中细胞与 10X 数据集中其余细胞之间的连接比。以较高的结点比预测的聚类将突出显示。

见图五在空间转录组学中的应用。

图五

(A) 胎心 ST 面板分为 4 个解剖区域,以组织切片 16 为例 。

(B) CIRI-deepA 预测区域特异性 circRNA 在不同区域之间富集在批量数据 (RNA Atlas) 得出的结果 (Fisher 精确检验) 中。点的大小和颜色表示比率和 -log(pvalue)。Random_label:随机选择的 circRNA(批量数据中区域特异性 circRNA 的大小相同)。Random_RBP:使用随机排列的 RBP 表达值作为输入进行预测。Random_cis:使用随机排列的 CIS 特征作为输入进行预测。

(C) 计算每个区域或斑点的 circRNA 指数的工作流程。F 表示 CIRI-deepA 模型。

(D) 第 16 节的 CircRNA 相对区域指数图(左),通过相应块数据(右)中的连接比验证。腔静脉、心房 1、心房 2、心室 1 和心室 2 分别对应于流出道/大血管、心房和心室区域。

(E) 第 1、6 和 16 节中 circQKI(2-4) 的标准化 circRNA 指数和 QKI 的标准化表达。

(F) 使用 18 个 circRNA 的预测概率作为输入(样品 A 中的概率较高,样品 B 中的概率较高)用 LASSO 拟合细胞型比例的工作流程。手动选择 18 个 circRNAs 以实现预测概率的低相关性。

(G) 4 个样品中预测的细胞型丰度和反卷积 (CARD) 衍生的细胞型丰度。计算 Lthe LASSO 模型输出与反卷积结果之间的 Pearson 相关系数。

02

研究结论

总之,CIRI-deep 的引入代表了在各种类型的数据集中推断差异剪接 circRNAs 的一种有前途的解决方案。该模型有效地解决了低测序深度或 poly(A) 选择数据以及单细胞和空间转录组数据带来的挑战,显著拓宽了 circRNA 研究的视野。我们相信,多功能性和稳健的性能使其成为研究人员在不同实验环境中探索 circRNAs 的调控机制和功能意义的宝贵工具。

好了,今天的文献解读就到这儿来,我们下期再见!如果你正在开展临床研究.需要方案设计.数据管理. 数据分析等支持.也随时可以联系我们。返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
我来说两句
0人参与, 0条评论
登录抢首评