空间转录组学技术,尤其是华大时空组学技术 Stereo-seq 的出现,能够准确反映细胞的空间排布和 RNA 的原位表达,帮助科研人员从时间和空间维度上认知每个基因、每个细胞,有望带来生命科学领域的第三次科技革命,成为重新认知器官结构、生命发育、物种演化和定义疾病的底层工具。
对于时空组学技术生产的原始数据,需结合算法工具进行处理、分析,进而找到在空间分布上具有意义的细胞和基因表达。然而,由于该技术的创新性,现有工具包大多仅侧重于空间原位信号的可视化,而缺乏系统性分析数据的方法。
北京时间 11 月 12 日,华大生命科学研究院联合斯坦福大学医学院、武汉大学电子信息学院等机构在国际顶级学术期刊《细胞》(Cell)发表时空算法工具包最新研究。该国际协作团队借鉴了物理学、地理学、经济学等多个跨学科领域的数学模型,开创性开发了三维时空建模工具包 Spateo,使空间转录组学技术能够精细地重构器官三维结构、系统地量化时空动态过程。该工具包的发布标志着时空组学研究迎来革新性突破,可全面支撑胚胎发育、脑科学、疾病等领域研究,为实现高精度时空生命全景观研究迈出了极为关键的一步。
Cell 官网截图
Spateo 工具包提供多种算法选择,具备三维重建、区域数字化、细胞间相互作用推断、“形态计量向量场”以及用于交互式操作的可视化界面等独特优势。为验证其性能,研究团队以小鼠胚胎和果蝇发育的研究为例,探索了三维空间中随时间变化的器官生态形成机制,并构建了小鼠胚胎发育的“3D 分子全息图”,证实了 Spateo 将显著提高我们对发育过程中器官形成的理解。
Spateo 整体功能示意图
如果说以往的时空算法工具包更多的是辅助研究者观察数据,Spateo 则具备系统性的统计能力与强大的分析能力。可以说,Spateo 工具包是当前时空算法工具领域“天花板”级别的存在,将为生命科学的未来研究奠定重要基础。
下文选取 Spateo 工具包中的四种核心创新性算法为大家介绍。
三维重建算法:
普适性强,更高精度、更低成本实现三维重建
Spateo 工具包提供的三维重建算法,能够帮助科研人员以更低成本、更低难度(更少、更远距离的组织切片)获取更高精度的三维重建结果,可广泛适用于胚胎发育、脑科学、疾病、植物等多领域研究。
首先,对于空间组学中经典的三维重建问题,Spateo 巧妙地将切片间的配准任务转化为“生成”问题。切片间的配准,是将二维图像进行精确对齐,以便于后续的三维重建和分析。作为空间组研究中的基础问题,配准的准确度将直接影响研究结果的判断。可类比理解为,医院检查拍摄的 CT 影像越精准,医生也就能更好地理解和诊断患者的病情。
具体而言,研究人员获取了两张组织切片 A 和 B 之后,Spateo 可根据切片 A 生成一个虚拟的 A’切片,使其与 B 切片足够相似。A’切片的生成过程由高斯过程建模,并通过变分推断求解,实现高效且稳定的计算,并且能够处理切片形变和部分缺失等难题。同时,Spateo 还设计了多切片联合优化算法以及表面纠正算法,进一步提升了三维重建的精度。鉴于此,即便切片 A 和 B 距离较远、或时间跨度较长,甚至是跨物种的切片,也能借助 Spateo 推断出两者间的映射关系。
生成算法示意图和小鼠脑胚胎重建效果(c-d:之前发表的方法偏向于重建成“一团”组织,而 Spateo 准确还原了三维精细结构和基因空间分布)
此外,研究团队采用多个空间组学数据集对 Spateo 进行验证,包括小鼠脑、人类淋巴瘤、猴脑和小鼠胚胎。结果显示,Spateo 成功重建了各种组织类型的三维结构,展示了其处理复杂数据集的强大能力,在准确性、计算速度、内存消耗、可重建的切片间距和可处理的细胞数量等方面均优于当前国际上主流的重建算法。
更具创意的是,Spateo 的三维重建算法在拓展到两个甚至多个完成重建的三维胚胎的配准工作时,能够自然地捕捉跨时间点的细胞迁移、凋亡和分裂分化事件。该方法在细胞层面完美解决了胚胎形态发生学的关键问题,为后续的形态计量算法奠定了坚实基础。
区域数字化和细胞互作算法:
识别细胞上下游调控网络,有望助力临床应用
生物发育的过程中,有一个确保发育精确性和对称性的关键步骤,叫“轴线发育”,即组织和器官沿特定轴进行有序分化与发育,如头-尾轴、背-腹轴或左右轴。轴向发育为组织和器官的位置、形态及功能提供空间上的指引,因此该过程也被称为“区域化”。
Spateo 的区域数字化算法借鉴了物理学中的势能场概念,可对任意形态的组织、沿任意轴向生成等高线进行数字化分割,进而识别出具有显著轴向表达特征的关键基因。此方法尤其适用于研究具有分层结构的发育问题,如大脑皮层(人类大脑皮层分为 6 个层次)、皮肤、血管壁等。
第 11.5 天小鼠脑中丘脑限制带研究(a: 小鼠脑不同脑区是如何发育而成的 g:影响不同脑区功能的细胞互作网络)
通过区域数字化算法挖掘出一系列具有空间特征的基因之后,Spateo 的细胞互作算法能够构建目标基因的上下游调控关系网络,进一步探讨目标基因的表达如何受到自身及周围细胞的调控。
此两种算法结合使用,在三维发育研究中具有重要应用价值,有助于理解控制细胞行为的动态过程,此外,在疾病研究中能帮助找到关键基因及其互作网络,有望为肿瘤等疾病的治疗提供新思路。
形态计量向量场算法:
关联宏观组织与微观基因,为发育、疾病研究提供新见解
Spateo 中最令人振奋、最具创意的算法是利用形态计量向量场算法,开创性地将宏观组织的形态变化与微观的基因表达变化关联起来,这是以往工具未能实现的。该算法实现了对影响器官发生的关键基因进行分子层面的推断,为研究发育过程、疾病发生发展等问题提供了极具优势的新途径。
具体而言,组织形态学变化通过物理空间中跨时间点的细胞迁移向量场进行微分几何计算,包含三维旋度、加速度、曲率、挠率(物体扭曲程度)和散度等物理量,这些量与生物发育过程密切相关。同时,通过向量场中表达量的变化,可以挖掘出与这些物理度量高度相关的“形态计量”基因。
以小鼠心脏的非对称发育研究为例,我们可以观察到小鼠左心室的各种形态计量都比较保守,而主要发育自第二心场的右心房、右心室、还有左心房则有各自显著的宏观上的形态变化,Spateo 能够以物理度量的方式,找出与不同形态变化高度关联的关键基因。此外,研究团队还开展了果蝇发育的研究,结果表明 Spateo 对帮助我们更好地理解先天性心脏缺陷等疾病具有重要意义。
小鼠心脏的非对称发育研究(g:左心室在各种物理度量下都最保守,而其它的腔室有各自特异的显著变化 h:算法鉴定出宏观形态学变化所对应的关键基因表达)
随着空间技术的不断成熟并广泛应用,研究团队预见到单细胞基因组学的许多方法可以转化为空间基因组学,能够在原位和三维空间中实现多视角、时空分辨的谱系解析和扰动解析的细胞状态动态。
此外,Spateo 的应用将助力理解多种生物系统问题,举例而言,通过生成空间分辨的跨物种细胞图谱,比较不同物种间器官的三维模型,进而揭示组织结构的进化过程,如脊椎动物的四腔心脏是如何从无脊椎动物的单腔心脏演变而来的。
文章通讯作者、华大生命科学研究院白寅琪博士表示:“Spateo 采用数学建模的方式,可广泛适用于空间组学领域各种科学问题的研究,为生命科学领域提供了革新性、系统性的整体研究方案。此外,Spateo 工具包已开源,兼容目前包括华大时空组学技术 Stereo-seq 在内所有的空间组学技术,我们欢迎各领域科研工作者使用,共同推动时空组学生命研究进展。”
文章第一作者、斯坦福医学院邱肖杰教授认为,Spateo 代表了我们在创建预测性虚拟胚胎模型的道路上的重要里程碑。与其它方法不同,Spateo 能够将生物系统视为一个相互连接的整体,而不仅仅是单个细胞,这在揭示先天性疾病背后的分子机制方面具有巨大的潜力,对促进人类健康具有深远的影响。
“时空组学技术给生物学研究带来了巨大的机遇,而对时空组学大数据分析是当前的巨大挑战。”文章通讯作者、华大生命科学研究院院长徐讯研究员表示,“Spateo是一个重大的飞跃,我们借鉴了多个学科的理论知识,通过算法弥补了实验技术无法解决的问题,譬如切片的细微形变、需要克服不连续间断取样造成的数据丢失问题,还解决了跨时间点重构发育过程中的细胞分化、迁移等难题。随着时空技术的进步和普及,相信Spateo这样的前瞻性算法研究,能为我们真正从时空维度系统研究生命的过程奠定基础。”
斯坦福医学院邱肖杰教授为文章第一作者,并与华大生命科学研究院白寅琪博士、刘石平研究员、徐讯研究员,以及武汉大学马佳义教授共同担任通讯作者。麻省理工学院博士生 Daniel Y. Zhu、武汉大学博士生卢意帆、华大生命科学研究院与西北大学联合培养本科生姚佳俊、华大生命科学研究院-中国科学院大学博士生荆泽华、Ginkgo Bioworks 研究人员 Kyung Hoi Min、华大生命科学研究院博士后成梦南为共同第一作者。
该项目通过伦理审查等相关审批,严格遵循相关法规和伦理准则执行。国际合作仅限于计算建模与数据分析,不涉及任何物质或财务资源。项目中的所有软件开发均以透明方式进行,并可在 GitHub 上公开访问,本研究中使用的数据现已公开访问。
Spateo 使用教程:
https://spateo-release.readthedocs.io/en/latest/