多模态数据在推进新范式的古生物学与地层学研究中发挥着越来越关键的作用。化石标本综合数据的汇交不仅有利于古生物学与地层学科开展基础研究工作,也在一定程度上对资源矿产的勘探与开发有重要的辅助作用;同时,也将深入推进人工智能技术在古生物学与地层学领域的应用。
最近,中国科学院南京地质古生物研究所研究员徐洪河,联合天津大学副教授牛志彬,带领南京古生物所地层古生物大数据中心人员,花费了两年多的时间,创建了笔石化石标本综合数据集,并对收集的这批数据开展了分析。相关成果在地球系统科学领域的顶级期刊《地球系统科学数据》(Earth System Science Data)上发表。
笔石标本多模态数据集的构建过程涉及了标本的选取、科学信息梳理、图像采集、数据清洗、云端存储与备份等步骤。该数据集选取了可服务于全球生物地层对比及页岩气的勘探开发的,产自华南奥陶系-志留系地层中的1550块笔石化石标本,采集内容涵盖了化石标本的系统古生物学、地层学、参考文献、化石标本属性等科学而全面的信息,还包括2951幅高分辨率的化石图像,且标本在系统分类上涵盖了113个笔石种或亚种。
针对该数据集,研究团队开发了专门的化石标本数据可视化软件,所有用户都可以通过此软件查看化石标本的相关科学属性信息以及高分辨率图像,并可以通过图像中的比例尺工具对标本进行测量,实现用户足不出户的“虚拟查看”。该功能在一定程度上为开展基于化石标本的研究奠定基础。
研究团队还运用t-SNE非线性降维技术对数据集开展了可视化分析。即在二维图像上,单一图像数据所构成的若干点集与笔石系统分类中的若干个科级分类群之间建立了对应关系。显示出人工智能在一定程度上识别出图像的专业内涵。
本研究是深时数字地球(Deep-time Digital Earth)国际大科学计划“古生物学工作组”的系列研究成果之一。
论文相关信息:Xu, H.-H., Niu, Z.-B., Chen, Y.-S., Ma, X., Tong, X.-J., Sun, Y.-T., Dong, X.-Y., Fan, D.-N., Song, S.-S., Zhu, Y.-Y., Yang, N., and Xia, Q. 2023. A multi-dimensional dataset of Ordovician to Silurian graptolite specimens for virtual examination, global correlation, and shale gas exploration. Earth Syst. Sci. Data. 15, 2213–2221, https://doi.org/10.5194/essd-15-2213-2023.
笔石标本综合数据集创建过程示意图
本研究构建的数据集中笔石的时空分布范围
对本研究构建的数据集进行. t-SNE降维可视化展示
附件下载: