报告实录 NADC牵动天文学研究向数智化发展暨时域大模型发布

  • 学术交流
  • 2025年02月02日
  • 编者按:中国科学院国家天文台2024年度学术年会2025年1月21日在国家天文台举行,在“重点科学进展”一节中国家天文科学数据中心常务副主任崔辰州研究员做了题为“NADC:牵动天文学研究向数智化发展暨时域大模型发布”的报告。以此报告实录作为对2024甲辰年的总结和2025乙巳年的新春问候! NADC:牵动天文学研究向数智化发展暨时域大模型发布 各位同仁,大家好!

报告实录 NADC牵动天文学研究向数智化发展暨时域大模型发布

编者按:中国科学院国家天文台2024年度学术年会2025年1月21日在国家天文台举行,在“重点科学进展”一节中国家天文科学数据中心常务副主任崔辰州研究员做了题为“NADC:牵动天文学研究向数智化发展暨时域大模型发布”的报告。以此报告实录作为对2024甲辰年的总结和2025乙巳年的新春问候!

NADC:牵动天文学研究向数智化发展暨时域大模型发布

各位同仁,大家好!

非常高兴借此机会和大家分享NADC(也就是国家天文科学数据中心)和China-VO(即中国虚拟天文台)最新的研发成果和提供的服务,以及下一步的发展设想。

一、虚拟天文台与天文信息学

天文学是一门观测的科学,因此观测数据对于天文学研究来讲,是至关重要的核心科研要素。同时,天文学家是非常开放且善于吸收新技术的群体。天文学是最早把像CCD技术这样的数字化观测技术引入天文学中的学科。在新技术的推动下,天文学的数据也在引领着整个科学数据的发展。在2000年前后,天文学进入到了TB时代,如今我们正处于PB时代。随着像SKA、CSST、LSST等更大规模巡天计划投入实施,天文学将在未来几年进入EB时代。天文学除了领域内的科学发现外,还对社会产生了非常大的回报和影响。2012年出版的畅销书《大数据时代》在其引言中就提到:天文学是信息爆炸的引擎。这句话就证明了天文学对社会发展的反哺。

然而随着数据量的不断增大,传统的“检索——下载——分析”的传统研究范式,已慢慢不再适用。随着天文学研究课题越来越前沿、宏伟,常常需要时域、多波段、多信使的数据提供支持,当研究课题所需要的数据超过了个人电脑的容量时,科研人员将无法在自己的计算机环境下完成任务。在这样的情况下,一个云端的网络化科研环境或将成为研究者的刚需,即“虚拟天文台”。
虚拟天文台概念是在2000年前后由天文学家和计算机专家共同提出的。最早提出这一概念的是三位科学家,其中约翰斯·霍普金斯大学的Alexander Szalay教授和美国加州理工大学George Djorgovski教授是天文学家,1998年图灵奖得主Jim Gray博士是计算机方面的专家。值得一提的是,Alexander Szalay教授与Jim Gray博士共同为斯隆数字巡天(SDSS)计划构造数据库系统,开创了使用数据库来规范化管理和发布天文数据的先河。通过他们的努力,微软的SQL Server从一款“业余”产品成为了可以支撑业界商业用途的大型商业数据库产品。而这也成为了天文学对产业界反哺的重要案例。

图1 提出“虚拟天文台”理念的三位科学家

三位科学家在提出虚拟天文台这一设想之初,就是希望利用先进的信息技术,把全球的天文研究资源无缝透明地融合起来打造成一个数字宇宙,无论是来自太空或地面的观测设备,或者是不同波段的数据,都能够通过高效的数据发现、访问和互操作来得以实现。这种数据密集型的科学研究方式被Jim Gray博士称为科学研究的第四范式,即数据密集型的科学发现。如今,社会上又有观点认为,人工智能时代的科学研究将成为第五范式。但有了虚拟天文台这样的数字宇宙,并不代表天文学家就能产出更好的科学成果。更好的成果需要有先进的计算和分析的方法应用于数字宇宙中去,从海量的数据中去获得新的发现,这就是天文信息学的概念。

为了推动虚拟天文台的发展,2002年国际虚拟天文台联盟(IVOA)成立,中国也于同年成为了最早一批成员。这个联盟迄今为止已有24个国家和国际级的成员,几乎所有天文学发达的国家都提出了自己的虚拟天文台计划。

图2 虚拟天文台架构图

从虚拟天文台的架构图可以看出,通过先进的信息技术,将研究所需的数据、网络带宽、计算资源和模型等整合在一起,形成了一个强大的平台。而虚拟天文台的服务对象不仅限于个人用户,还包括桌面应用程序、API、Python程序、AI智能体以及大模型等多种形式。这些都构成了虚拟天文台的用户群体。国家天文科学数据中心是虚拟天文台的资源基础,是天文信息学的核心技术力量。数据是虚拟天文台的核心,也是天文信息学的关键驱动力。国家天文科学数据中心(NADC)作为虚拟天文台的资源基础,发挥着至关重要的作用。然而,天文信息学的发展不能仅靠数据中心的单方面努力,广大科研人员才是推动这一领域进步的主力军。将先进的分析方法和理念应用到数字宇宙上,需要大家携手合作,共同为天文学的数字化和智能化发展贡献力量。

二、NADC历史回顾

简单回顾一下国家天文科学数据中心的历史。中国天文学家一向非常重视科学数据。1989年4月,就由中国天文学会和北京天文台(现国家天文台)共同成立了世界数据中心中国中心天文学科中心,总部设在北京天文台。2011年12月,中国天文数据中心成为新成立的国际科联下属的世界数据系统(WDS)首批正式成员。2018年,中心成为亚洲首个通过国际数据中心体系权威认证CoreTrustSeal的数据中心。2019年6月,科技部、财政部联合发文对我国国家科技创新基地进行了重新梳理,中心成为我国首批20个“国家科学数据中心”中的一员。

现在的国家天文科学数据中心其本质更像一个核心团队体系,被不同的主管部门赋予了对应的职责。目前,NADC既是国家的天文科学数据中心,又是中国科学院的天文学科数据中心,也是国家天文台的科学数据中心。国家天文台目前正在规划共享服务平台,未来NADC还将成为国家天文台的数智创新平台。在国家和上级主管部门的指导下,中心已经有了非常完整的体系架构,设立有技术研发部、数据资源部,还有包括丽江、之江、粤港澳大湾区技术研发、教育研发应用等5个分中心。此外,全国天文学名词审定委员会的秘书处也以中心作为依托机构。

图3 NADC组织架构

截止2024年,中心已汇聚数据集507个,已公开数据集406个,数据总量约78.3PB,包括国内观测设备和计划自产数据、科技计划项目汇交数据、论文数据、镜像数据、科普数据等。同时,中心为18个国家重点研发等科技计划实现了数据汇交。根据国家政策要求,只有在结题前完成数据汇交,才能具备验收资格。此外,中心还为139篇天文领域相关论文数据提供了长期贮存。中心已经初步建立起了一个度的天文科学数据资源体系。

图4 NADC数据资源概况

三、NADC资源与服务

基于这些平台和资源,中心已经支撑了非常多的研究计划,为各类台站、科技场馆提供了深度的技术服务和资源支撑。接下来介绍两个具体案例,一个是LAMOST,另一个是天关卫星。

1.服务重大科技计划

LAMOST望远镜是天文界第一个大科学工程项目,2008年落成,2009年通过国家验收,2010年进入科学观测,迄今为止已经15年了。现在,LAMOST发布的天体光谱数据已超过2000多万条,数量是其他项目已公开发布的光谱数据的两倍还多。

LAMOST有个非常严谨的数据发布计划,从2012年开始,中心发布LAMOST数据到现在已经完成了48次。现在在中心平台上有34套系统在同时运行,从DR1到DR12,每套系统用户都可以随时检索和使用。这样一个30多套系统在同时运行的数据平台,国内尚无先例,在国际上也非常罕见。我们基于云计算和分布式技术,打造了LAMOST数据发布平台。基于虚拟天文台的数据融合技术,实现了光谱、星表、星图的统一访问。LAMOST当年学习和对标的都是SDSS,如今LAMOST数据通过这个系统向SDSS进行了数据输出,SDSS将LAMOST数据融入到了他们的系统中。此外,中心还实现了向法国CDS、欧空局、德国虚拟天文台,以及泰国的国际数据输出服务。

这项工作的顺利开展离不开LAMOST团队的密切支持与配合。这项工作获得了北京市科技进步二等奖。2024年秋天,罗阿理老师代表整个团队领取了2024年世界互联网大会领先科技奖。作为一个天文领域的项目,能在互联网大会上获得这样的奖项是非常不容易的。

图5 NADC为LAMOST提供数据与技术服务

“天关”卫星(EP)项目是一个正冉冉升起的明星科技项目,2024年入选中国科学院亮点科技成果。在这个项目中,NADC也没有缺席,充分体现了“功成不必在我,功成必定有我”的精神。NADC为EP项目打造了时域天文信息中心,实现了暂现源的认证、流水线认证以及多元数据的融合认证,并支持了多波段、多信使的协同观测。此外,NADC还为从EP到后随望远镜(如兴隆望远镜、梦飞望远镜)的暂现源观测提供了链路支持,并负责科学观测proposal的申请等服务。

图6 NADC为EP项目提供技术和资源支持

2.NADC科学平台

我们的科研范式需要转变,从个人电脑迁移到云端。在国家重点研发计划项目的支持下,NADC已经设计打造了一个Science Platform,也就是数据领域常说的Open Science Cloud(开放科学云)。台里的科研人员只需要通过中国科学院邮箱登录系统,即可享受平台上所有的数据、软件、计算资源。这个平台已经集成了如 EP 数据分析软件、JupyterLab、Aladin、TOPCAT等软件工具。更多具体功能可访问中心网站来试用体验,欢迎科研用户为开发团队提供反馈意见。

图7 NADC科学平台界面

3.天文AI大模型发布平台

在过去的一年甚至更长的时间里,国家天文台的同事们联合其他单位的合作伙伴在大模型开发方面做了很多工作,已经有了一批训练成果,到了可以对外发布并推广使用的阶段。国家天文台需要一个专门的平台,以国家天文台的品牌形象向社会各界宣传和推广这些成果。这个任务责无旁贷地落在了NADC身上。为了支撑天文大模型的发布,中心迅速展开行动,由许允飞博士牵头,联合多位同事和同学组成一支突击队,利用三周的时间,从无到有,成功打造了一个国家天文台AI大模型集中发布和部署的平台。这个平台已经支撑了天一大语言模型、金乌太阳大模型、SpecCLIP光谱大模型、NADC智能体。经过2024年10月、11月,2024/2025跨年三次发布的考验,平台已经迭代到了第二代,功能、性能和用户体验都得到了显著提升。

图8 天文AI大模型发布平台

4.天文AI生态:全民科学

天文的数据不单提供给科学家使用,还需要让全社会参与进来,充分实现其在社会发展、科学教育等领域的价值。NADC基于自身的科学数据和技术平台,联合星明天文台高兴老师,国家天文台李楠研究员、李广伟研究员,太原理工大学贾鹏教授等人和团队,《中国国家天文》编辑部、上海天文馆等合作伙伴,共同打造了包括公众超新星搜寻、星系马戏团、星系迷宫、引力透镜搜寻、火流星上报系统、家乡的星星等一系列全民科学项目,鼓励公众共同为天文数据做标注,利用这些数据发现新天体和新现象。

图9 基于数据与AI技术驱动开发的全民科学项目

四、时域光变大模型:FALCO

接下来是时域光变大模型的发布环节。众所周知,时域天文学是近些年包括未来一段时间天文学领域非常重要的发展方向,然而时域巡天数据体量非常大,同时涉及到的时域变化过程、类型也很复杂,按照传统的研究模式很难赶上现在的科研步伐,因此需要大模型提升科学研究的效率。

FALCO(隼,a Foundation model of Astronomical Light Curves for time dOmain astronomy)是一个利用大量光变数据,通过自监督训练而建立的时域光变基础模型,通过提取有效的通用表征、捕捉多时间尺度的光变特征,将其应用于多种光变分析下游任务,如参数测量、变源分类、系外行星搜寻、恒星耀发检测等。FALCO模型核心研发团队成员包括陶一寒、黄样、左肖雄、康至煊、陈华曦等小伙伴。

图10 FALCO示意图

本次为FALCO模型首发版本。该模型基于Transformer架构,参数量约14亿个,支持的光变分析任务包括:变源分类、表面重力(log g)估计、耀发检测等关键功能。这个大模型的使用方法比较简单,例如:用户可以给大模型提供开普勒光变曲线的fits文件或者开普勒KIC编号,就可以让大模型完成多种下游任务。此外,传统语言大模型的对话功能它也可以完成。如果有兴趣欢迎扫码试用。

图11 扫码试用FALCO模型

五、未来计划与设想

国家天文科学数据中心在未来有很多的计划和设想,包括以NADC数据服务API为抓手推动NADC资源和服务的AI-Ready化、FAIR化、VO化和科学平台化(简称NADC新四化)。总体来说,就是要不断把国家天文台和中国天文学的成果通过中心的平台托举上去,让China-VO的自身能力不断增强,为我国的大科学装置、科技计划团队、科学家、社会用户,以及管理机构,特别是计算机程序和AI智能体都能提供给他们想要得到的服务,把中心打造成为优秀的国家科学数据中心和国际知名的天文科学数据中心,成为引领天文学进入数据密集型科学发现新时代的重要资源平台和技术力量。

最后,借此机会再打个广告。前段时间NADC团队和赵永恒老师共同撰写了这本《天文数据处理与虚拟天文台》,这本书是国家天文台天文技术与方法丛书的最新著作。欢迎老师和同学们扫码购买。

图12 《天文数据处理与虚拟天文台》及购书二维码

如果您希望了解今天报告里提到的所有资源、服务的更多详情,欢迎大家关注“虚拟天文台”微信公众号。

图13 虚拟天文台公众号

最后的最后,我代表NADC团队全体成员给大家拜个早年!

图14 NADC团队合影

报告幻灯片下载:点击这里。

猜你喜欢