人工智能提速新材料发现 YOSIA Webinar AI+材料科学 回顾

图片
引言
传统的材料研发模式主要依赖“试错”的实验方案或偶然性的发现,其研发过程一般长达10-20年,在很大程度上已经无法满足21世纪工业发展对新材料的需求。随着信息科技的逐渐成熟,人类通过计算系统或人工智能发现新材料成为可能。人工智能和材料科学的结合充满前景,但依然存在挑战。
2020年8月30日,未来论坛YOSIA Webinar第五期“AI+材料科学”邀请了材料计算学、材料表征及材料基因组学的学者,围绕“人工智能提速新材料发现”的主题,分享如何利用人工智能加速对材料结构和性能的了解,并与传统材料研究的学术界和产业界代表,一同探讨AI应用于材料科学研究的价值和效能。
·
主持嘉宾:
- 周华,美国阿贡国家实验室物理学家
主讲嘉宾:
- 汪洪,上海交通大学材料基因组联合研究中心主任,“致远”讲席教授,中国材料试验标准委员会(CSTM)材料基因工程领域委员会主任委员
- 刘宜晋,美国SLAC国家加速器实验室斯坦福同步辐射光源Lead Scientist
- 胡嘉冕,美国威斯康星大学麦迪逊分校材料科学与工程系助理教授
- 刘淼,中国科学院物理研究所特聘研究员,博士生导师,atomly.net创始人
讨论嘉宾:
- 尹万健,苏州大学能源与材料创新研究院教授,博士生导师
特别鸣谢 报告编辑:蔡佩余、任美琦
1
主题分享
01
《数据驱动的材料创新基础设施》——汪洪
报告主要介绍了以“大数据+人工智能”为标志的数据驱动模式对材料基因工程领域的重要性。首先提出了数据驱动模式对材料基因工程的实际应用价值,以及目前材料数据面临的问题,最后指出需要一个以数据为中心的集成平台,整合基于高通量实验与高通量计算的“数据工厂”与数据设施,实现材料基因工程的技术要素的完美协同。
材料创新一直是各种颠覆性技术革命的核心,以至于材料经常成为时代的标志。传统上,新材料的发现和使用依赖于偶遇、科学直觉与实验试错。然而,大量的实验试错过程,非常耗时费力和昂贵。为达到当今社会的要求,我们需要向可预测、可设计的模式进行转变。
我们的理想是按需设计,从理论上算出材料,通过已知知识、计算、预测,得到关键的成份、结构、工艺和性能之间的关系。为实现此目标,我们首先要向其他领域学习,生物学里有一个生物基因,当了解了这个基因,我们可以采取相应的措施,去治病或者防病。所以相应的如果我们掌握了材料“基因”,也就找到了按需设计的钥匙。但事实上,物质世界比生物世界更加复杂,生物只是物质的一种,经过了若干年的探讨,依旧没有为材料基因找到恰当的科学定义。目前的共识是将“材料基因工程”用作预测型快速获得成分-结构-工艺-性能间关系的代名词。
图片
材料基因工程工作模式分为三种。第一种是实验驱动。基于高通量的合成与表征的实验,直接优化和筛选材料,从一个一个试到一批一批试,量变引起质变。典型的技术是组合材料芯片制备技术,科学家受到电路芯片与基因芯片的启发,在一块基底上,以任意元素为基本单位,组合集成并快速表征多达10-108种成分、结构、物相,大大提高了实验效率。第二种模式是计算驱动。基于理论计算模拟,预测有希望的候选材料,缩小实验范围,最后用实验验证。这种办法应用广泛,从原子极到连续体都有相应方法,包括从第一性原理方法、分子动力学、介观方法和连续体方法。
第三个模式是数据驱动,基于机器学习和数据挖掘的材料信息学,通过大量数据和机器学习建立模型,预测候选材料。2016年5月,Nature发表了一篇文章,通过机器学习从过去认为是“失败”的数据中“学习”规律,并对新材料进行预测,对比有经验的化学家的人工判断,机器预测结果以成功率以89%:78%胜出,这个案例充分展现了机器学习方法的强大,就像Alpha Go对围棋的冲击。
传统的研发路径围绕目标逐步趋近,而数据密集型数据覆盖更广参数空间,这从思维上有根本变化。我们认识世界的方式依次经历过实验观测、理论推演和计算仿真。现在随着数据量及计算能力以摩尔定律般的爆炸性增长,科学研究进入“大数据+人工智能”的第四范式。实验与计算驱动是基于事实判断或者物理规律的推演,并未改变原有思维模式和工作套路。而数据驱动是真正具有革命性的,人工智能方法擅长建立数据间的关联关系,是传统认识范式的补充与延伸,它的全面应用将产生颠覆性的效果。
图片
数据驱动是材料科学未来的发展方向,围绕数据开展实验-计算-信息学技术的协同和交叉。作为一种新的工作模式,其需要全新基础设施支撑才能充分发挥效力,即建立以数据为核心的集高通量实验、高通量计算和材料数据平台三位一体的,体现学科交叉的综合性材料创新平台。然而材料数据是实施科学第四范式的基本前提,也是当前全球性瓶颈,我们需要解决数据够用、好用的问题。
图片
解决数据够用问题的方案是建立数据工厂,批量产生高质量的基础数据。这是数据产生环节的革命性变化。全面的材料数据将被大规模地有意识的产生,数据产生由个体活动变为有组织的社会活动,其社会属性从私有财产变为公共资源,数据的质量、一致性和全面性都将得到提高,数据共享变得更加简单,社会总成本就将降低。另外为解决数据好用问题,现今国际科学界已经提出了建立符合FAIR原则的数据库,即Findable(可发现)、Accessible(可获取)、Interoperable(可互操作)、Reusable(可再利用)。中国材料与实验团体标准委员会CSTM组建了全球首个材料基因工程领域委员会FC97,并首先制定了材料基因工程数据的通则标准。
图片
总结以上,数据驱动模式是材料基因工程发展的核心问题,新型基础设施应适应数据驱动模式需要。
02
《X射线大科学装置与人工智能在先进材料表征中的应用》——刘宜晋
先进的 X 射线大科学装置为科学家提供了一个独特的实验平台来探索和表征功能材料的复杂性。报告结合机器学习和数据挖掘这些先进的计算方法,讲述可我们如何更好地应用X射线大科学装置,推进材料科学的前沿探索。
能源材料的复杂性不仅体现在我们预先设计好的多尺度多维度的形貌、成分和结构不均性,更重要的是各个结构和功能单元在其特定的应用场景下所表现出的复杂反应机理、动态演化和协同效应。比如石油化工领域的一个例子,原油开采出来后需要经过催化裂化反应,以产生各种更有经济价值的产品。这一过程伴随着毒性金属在催化材料上的逐步堆积,降低催化性能。这个现象导致了全球每天将消耗掉两千吨的催化材料。我们可以对这个复杂体系做很细致的表征,采集非常高分辨的三维结构,从中找到有化学活性的区域。但问题在于这个材料在其工作环境下发生的动态变化是很复杂的,这给我们进一步造成研究的困难。
图片
我们需要借助先进的实验装置来解决这一类问题。SLAC国家实验室拥有的两个大科学装置,SSRL同步辐射和LCLS自由电子激光。他们的原理是相通的,电子在高速运动的过程中,当运动方向发生改变的时候,会辐射出高质量的X-ray,我们就可以利用它来做各种各样的实验。
我的同事Jun-Sik Lee博士和高季昌先生主导研究了钇钡铜氧超导材料对强磁场脉冲的响应。在这个工作里,我们要把非常强的磁场脉冲打在样品上,同时用X-ray的脉冲去探测这一瞬间的信号。在这个工作中,我们找到一个微弱的衍射信号,这代表了材料内部在强磁场的作用下发生的一些改变。因现在自由电子激光装置重复频率较低,所以一个磁场脉冲只采到一个数据点,但正在进行中的LCLS-II改造将从120赫兹升级到1兆赫兹,即在一个红色的磁场脉冲里可以采集到一系列的X-ray脉冲数据,将我们的数据量提高好几个数量级,从而大大提高实验效率,从根本上改变现在的研究方式。
图片
随着技术的进步,实验数据量得到了大大提高,但这样大量的数据对我们提出了新要求,需要用新的办法从数据里面悟出知识。比如对电池材料的研究,传统的同步辐射谱学方法可以用一个较大的光斑采集吸收谱,大光斑覆盖了千千万万的颗粒,得到的信息是大量颗粒的平均现象,并无法得知颗粒和颗粒间是否有不一样或者每个颗粒内部会发生怎样的不均匀性。利用谱学成像的方法能有效解决这一问题,也能给我们带来了更多科研机会。
图片
在我们早期的工作里,我们结合常规的计算方法开发了一个简单、高效、自动化的数据处理流程,但问题在于要让这个数据处理的流程有效工作,我们需要假定对我们研究的材料体系有一定的了解,否则就需要借助更加先进的科学计算的方法,比如对大量的吸收谱数据进行聚类运算。聚类方法有很多种,一方面我们需要针对我们的问题,选择合适的算法,更关键的是需要把这些算法整合到我们的工作流程。比如在下面这个工作中,我们在长循环之后的锂钴氧的正极材料中找到了四种不同化学态,其各自又有自己空间分布。得到这些信息之后,一个对X射线谱学很了解的科学家,配合一个对电池材料、电池化学很了解的科学家,他们可以对数据结果来进行科学的解读,赋予科学含义。
图片
除吸收谱外,对图像的处理也可以利用人工智能的方法。例如我们对正极材料做了三维的高分辨的成像,我们会看到这里面有千千万万的颗粒,每个颗粒的形状与破损程度都不同,在40微米厚的电极片顶部和底部所发送的化学反应程度是不一样的,如果想对每个颗粒都进行细致的研究,显然用人工去执行这个过程是非常低效,也会带来很多人为的误差。因此就需要借助机器学习的方法。
图片
从中间图可以得知,不少正极颗粒在多次循环后已经破裂的不成样子,传统的数据分割很容易把部分碎片识别为不同的小颗粒,但是这些碎片其实属于同一个颗粒,所以希望我们的算法具备这样的智能,能够把这些碎片组合进同一个颗粒里,然后对这个数据开展后续的统计分析。
图片
最后讲讲我的理解和展望,大科学装置的最新发展给我们提供了很多强有力的实验工具,带来了科研的机遇。但大科学装置本身是很复杂的,想要控制好、优化好不是那么容易的事情,而人工智能在这里大有可为。一个理想研究流程需要各种各样不同的科学家共同参与,这也正是我们课题组在过去几年努力的方向。我们和世界一流的材料科学家合作,用世界一流的X射线大科学装置,结合数据发掘的方法得到有效信息完善我们理论模型,从而进一步指导我们下一轮的实验。
03
《机器学习在介观尺度材料设计中的应用》——胡嘉冕
材料的性能由其微结构(microstructure)直接决定,研究材料微结构-性能关联对材料设计至关重要。报告主要分享了对以下三个问题的见解:(1)哪些情况下用机器学习最为必要?(2)怎样根据具体情况选择合适的机器学习方法?(3)有哪些可能的未来发展方向?又分别存在哪些挑战?
机器学习现在炙手可热,有两种情况适合通过机器学习来研究材料微结构和性能的关联。第一种是当物理模型(即基于物理规律的模型)的计算速度太慢时。机器学习不关心材料微结构和性能之间的物理内涵,而是直接针对材料微结构和性能建立一个统计关联。这种基于统计规律的机器学习模型的预测速度可是物理模型的成千上万倍。第二种情况是当问题太复杂,使用物理模型无法对问题进行准确描述和预测。
用机器学习来建立材料微结构与性能的关联,可分为两个关键步骤:首先转化材料原始数据,找出一个向量或者矩阵,能够包含这个微结构的所有关键信息;然后,将此向量关联到目标性能上。假设一个微结构用X表示,性能用Y表示,机器学习做的事情就是根据已有数据,训练出函数F:X->Y,有了函数之后,对于一个未知的新材料和结构,就可以预测出它所对应的性能。
图片
根据描述微结构方法的不同,目前相关的机器学习模型可分为三种。第一种描述微结构的方法起源于经典的连续介质理论,其中一种比较常见的方式叫做Two-Point Correlation Function,描述两种空间上的相互关联,即对于一个物理结构,对任意空间上的一个点,有多少概率能够找到对应的物理态。然而,这种Two-Point Correlation Function的数据维度可能比原始的微结构数据还高,而且包含很多难以理解或没有意义的数,很难直接对其与目标材料性能进行关联。因此,需要对数据进行降维。最常用的降维方式叫做Principle Components Analysis (PCA),通过对数据做正交变换,来筛选并保留数据差异较大的维度,舍弃数据差异较小的维度,将高维的数据转化至低维空间,最后用回归分析预测材料性能。这种方式的优点是非常快,但在计算Two-point Correlation Function和做数据降维时,材料微结构信息的损失难以避免,从而影响预测准确性。
图片
第二种描述材料显微结构的方式是基于图像(Image),可以把原始数据直接读到卷积神经网络(Convolutional Neural Network,CNN)里,自动根据图像找到一系列的特征图,能够包含这个结构最重要的信息,然后进一步把数据做简化,关联到目标性能。这种方法的好处有两点,第一可以直接读取原始数据,二是可以直接得到你所需要的特征图,没有任何人为选择,而且这种方法适用于各种类型的显微结构。但用CNN处理多晶结构有两点问题,第一点是不够高效,一个晶粒至少包含一个三维像素点,实际材料有成千上万个晶粒,转化成的图像数据的读取速度太慢,失去了机器学习的优势。第二点在于微观结构的物理相互作用对最后性能影响非常大,但由于CNN本身的特性无法考虑两个晶粒间的物理相互作用,最后可能会影响预测准确性。
图片
第三种用方法是用图(Graph),图是结构化、网络化的数据,通常包含一系列相互关联或者相关的独立个体。图是无处不在的,基于这种图的神经网络就是图神经网络(Graph Neural Network, GNN)。今年上半年机器学习领域顶级会议ICLR的各种关键词的文章统计图显示,包含图神经网络(GNN)关键词的文章增长速率最快,说明GNN的确是当前热门领域,我们做的工作就是把当下最炙手可热的方法应用到多晶材料。
图片
具体地,比如考虑一个只有10个晶粒的简单多晶结构。我们会将每一个晶粒看做一个结点(node)。对于每一个结点,我们引入一个向量去描述所对应晶粒的物理特性,包括晶粒尺寸、形状、晶体学取向等。最后再将这些向量合并成一个矩阵,叫做feature matrix。同时,我们也引入另一个矩阵,叫做adjacency matrix,来存储晶粒和晶粒之间的近邻关系。如果两个晶粒直接相邻,那么所对应的矩阵组元则是1,否则为0。如图所示:晶粒1和晶粒3相邻,那么所对应的组元A13=1;晶粒1和4不相邻,那么所对应的组元A14=0。这种基于图的方法,特别适合描述多晶材料。相对于基于图像像素的方法,它更加高效,并且可以考虑晶粒之间的相互关系,从而可以获得更高的预测准确性。举个例子,我们团队使用少于500个多晶微结构作为模型的训练数据,在测试数据集(testing dataset)上实现了大于90%的预测正确率,这是远远超过目前其他模型水平的。微结构信息学(Microstructure Informatics)的挑战之一是数据量不够。我们这个方法由于在小数据集训练上的优异表现,应对这一挑战是有一定优势的。
图片
最后再分享三点微结构信息学领域的挑战和机遇。第一点,目前材料的数据库主要针对原子结构、晶体结构以及分子结构,对于材料显微结构目前并没有开放的大数据库,同时没有相应的Meta data。第二点,对机器学习算法的改进。怎样才能更好的对数据不确定性进行定量分析,怎样才能对机器学习模型本身的不确定性进行分析,怎样理解深度学习网络的学习过程和所获得的预测函数,这些都是当前的研究热点。
图片
第三点,机器学习为人人。机器学习包括其他的人工智能方法,在材料领域的应用属于较初级阶段。怎样才能让更多的研究人员把机器学习作为一个工具来辅助研究?做出一个成熟的,易于使用的,专门针对微结构信息学的机器学习软件/平台或有帮助。
04
《数据驱动的材料研究》——刘淼
随着的信息技术的发展和材料模拟领域的进步,人们可以通过高通量计算在短时间内获得大量数据,并利用它来筛选和设计新材料,从而大幅加速材料研发速度,降低材料研发成本。报告首先介绍了材料数据的重要性以及目前的国际趋势,然后分享了中科院物理所近期研发的Atomly材料科学数据库的进展和未来的目标。
材料研发推动人类进步。早期人类社会的定义是用材料定义的,比如石器时代、青铜时代、铁器时代。随着材料合成工艺的进步,总的趋势是从自然材料到人工合成材料,从无机材料、金属材料到现在的材料种类多元化,例如有机、半导体等材料。我们的生活中基本上都是一些人工合成的材料,比如制造航母需要特殊的钢,制造锂电池需要钴氧化物,石油化工给大家提供了塑料、橡胶类材料。材料进步非常迅猛。
但传统材料研发模式导致材料的发展非常缓慢。近期,材料科学的发展趋势正在经历从经验试错模式到理论预测模式的转变。材料研发经过了经验失错、理论推演等模式,直到近代有了计算机,人们可以用数值的方法求解数值解,大大提升了研发效率。近期的信息化技术和数据科学进展带给材料科学新的创新给予,现在人们可以用AI来处理大量数据,提取数据间的隐含变量,以此来指导材料科学的发现。
图片
这种材料信息学方法的本质是从弱信息化、弱信息积累的模式向强信息化、强信息积累、信息耦合模式的变迁,核心推动力是和信息科学的交叉。如过去70年人类平均每年发现3.3个氮化物材料,加州大学伯克利分校的Ceder组通过高通量计算等材料大数据方法,一年内发现92种有可能材料,并用实验合成7种。
图片
加速材料发现一个比较好的方式是对材料性质提前做计算和模拟预测,比较常用的方法是基于量子力学的密度泛函理论(DFT)。运用此种方法,只需要给定空间中原子结构,就可以计算出这个结构对应的材料物性性质;此方法无需实验合成表征即可在短时间内预测材料的部分物性;将这一过程交给计算机,并引入高通量计算方法,可以为我们批量生产大量数据。
图片
最早是Materials Project发现可以用这样的方式来积累大量的材料数据,并于2010年构建了数据库,目前已积累了12万条的高质量材料数据。类似的数据库还有AFLOW,NIST,OQMD、NOMAD等,但我们国家没有世界级材料数据库。中国是访问Materials Project最多的国家,我国的材料科学发展急需此类数据库。因此“十三五”期间,科技部、中科院和中科院物理所提前布局了这一领域的发展规划。
基于物理所的布局,我们近期构建了材料数据库Atomly.net。Atomly材料数据库通过高通量DFT计算积累了14+个无机非晶材料的高质量数据,通过Atomly数据库,用户可根据自己的需求在Atomly快速查询材料的基本结构信息,例如能量总能、晶体结构对称性等。此外Atomly数据库网站的run4u功能,允许用户提交材料结构,系统会自动计算、自动提取结果,并加入到数据库中。
图片
图片
Atomly积累了大量数据,这里举三个数据使用例子。第一,物性预测。通过分析大量材料数据,通过机器学习归纳出形成能预测模型,可用迅速判断新材料的形成能和结构稳定性,从而指导新材料设计、稳定性预测等。第二,人工智能拟合势能面。通过人工智能拟合大量DFT数据,得到可以精确原子间相互作用的势函数,从而可以带给业界可以坚固DFT精度和分子动力学速度的材料模拟新方法。第三,新材料发现。批量计算和分析一系列的材料,系统的分析材料演化规律,从而预测材料研发方向。
图片
Atomly未来的方向是用一流数据引领材料科研,计划在五年内可以达到更高数据量、更高精度,用更高阶的方法指导和实际应用相关的问题。未来,我们以数据库为出发点,聚焦材料科学相关的相关应用领域,例如合金、功能材料和能源材料。
尹万健教授观点分享
我是物理背景出身,我们做计算物理都是在已知的物理定律的条件下来解特定的方程,过去认为机器学习可能就是较为复杂的统计的拟合,并不认为它能够有什么根本性的发现。但Alpha Go战胜了人类顶尖棋手李世石这件事情给大家带来了很大冲击,包括我自己。之前我一直在做钙钛矿太阳能电池的理论计算研究,钙钛矿这个体系因为材料种类很多,恰好是AI和材料交叉研究比较好的模型体系,我们首先在数据库里做了分析,我们在一万多种可能的材料中,筛选出了300多种稳定材料,在过去通过基于密度泛函理论的第一性原理计算,这个计算量是很大的,而通过高通量计算加机器学习,把计算量大大减小的下来我们通过查找资料,发现这300多种材料虽然在数据库里不存在,但是上世纪六七十年代很多科学家已经把这些材料合成出来,跟我的理论计算对比,它的准确度达到95%以上。这个例子使我相信AI确实能够做以前传统研究做不了的事情。
我最近继续做了另外一个尝试,利用符号回归的机器学习方法,找到了一个简单的催化描述子。我们知道,催化领域里d能带中心理论应用非常广,而确定d能带中心要通过DFT计算,如果在大量的材料里面筛选,计算量很大。我们通过机器学习找到了一个不需要通过DFT计算的描述子,后续我们的实验合作者根据这一描述子很快合成了5种新材料,催化活性也都比较高。这个工作可能是我十几年来最满意的工作之一,因为这是我作为一个理论计算工作者,第一次设计出来的材料被实验合成出来,而且实验性能和预测的差不多。从这个角度来看,我也应该感谢AI让我有了不一样的科研体验。
2
主题讨论环节
议题一
如何整合和充分利用已有的但分布式布局(特别是地域空间分离的)的各种基础设施,使之成为一个新的以数据为中心的材料基因组集成平台?
汪洪:现在各个国家建立了很多可以称为平台的机构,这与我们的长远目标是完全一致的,这些平台本身都具有产生数据的能力。过去我们习惯的数据,在形式和内容上都与未来略有差别。我们制定的材料基因工程的数据通则,充分考虑了未来的需要。过去的数据库,建立了成份、结构和某种性能之间的关联。为了适应未来更加开放、共享和能反复使用数据的需求,我们要把样品、原始数据、由原始数据推导出的或者经过处理的数据打散了包括在数据库当中。核心问题是要建立相应的标准,只要按照一定规则进行,整个社会的机构可以形成一个大的网络,分布式便不再是问题。至于具体如何建立交换机制,我们也在探究中。一个想法是利用区块链技术,既保证数据的真实性和可追溯性,也保证了原本拥有权。在这个基础上数据有足够能力自由流通,这个机构建在什么地方也就不那么关键了。
议题二:
高通量实验表征的设计与实施应该如何选取和优化?它的挑战和应对策略分别是什么?
刘宜晋:高通量实验表征包含两种不同类型,第一种类型是自动化、高效率测试大量不同材料,用这种方式搜索参数空间,寻找最优化组合。如我们最近参与的一个工作,对数据进行实时分析和预判,从而针对性的选择下一个实验的采样点。实验不再简单按照预先设定好的流程,而是有的放矢,能够一定程度上提高实验效率。另一种类型是对复杂的系统用高时间和空间覆盖率,覆盖比较大的视野,用多模态的实验手段,多维度和动态地跟踪材料体系的变化。最后在产生的大量数据中寻找蛛丝马迹,找复杂体系中的蝴蝶效应,将微观现象和宏观性能进行关联。这种工作需要保证数据采样足够多,并且需要非常仔细的验证,最后才能保证结果是统计上可靠的。
议题三:
从利用人工智能机器学习来提速材料设计的角度,性能需求反溯微结构设计为导向还是微结构设计优化而预测性能为导向会更能发挥AI、机器学习的优势所在?
胡嘉冕:这两个问题并不矛盾,材料设计应以优化性能为导向,以找到合适的原材料和材料制备工艺为目的。但对微结构的预测和设计优化不可或缺,从工艺到微结构再到性能(Processing-Microstructure-Property)是一个完整的链。首先,预测不同工艺条件(比如温度、成分、压强等)下的微结构,然后再预测与此微结构对应的性能。接下来,需要做实验来验证在给定的工艺条件下是否能获得相应的性能。如果实验表明预测的性能未达到预期,则需要重新选择其他工艺条件,再重复上述过程直至性能满足预期。关键在于怎样让工艺条件的再选择变得更高效,而不是没有目的地试。在这方面,贝叶斯优化(Bayesian optimization)或可发挥一定的作用。
议题四:
Atomly.net数据库和 Materials Project之间有什么样的区别和联系?
刘淼:首先高通量计算是一种方法,它不仅仅只是数据库,所以我们想建立的是这样一套方法。国外已经有此类的程序包、工作流和基础设施,给我们很多启发。在建立Atomly以后,我们也可以针对某一类材料做高通量计算,拥有这样的工作模式。我们对Materials Project的方式比较认同,现阶段的成品比较相似。但我们现在的数据量和数据质量,在某种意义已经超越了Materials Project。目前数据库已经完成了几乎所有人类已发现的实验结构的计算,现在正在增加的都是人造结构,随着数据积累再过三五年之后大家就可以逐渐体会出差别。
议题五:
如何将与材料合成相关的庞杂内容整合到材料计算预测和高通量实验表征的环节里面去?
刘淼:第四范式就是材料数据的积累去改变从前个人经验积累的模式。通过数据科学的模式,把群体的智慧不断结晶、积累下去,这是根本方式的变化。我们想通过做好数据的方式,帮助机器学习的过程更好的运行。生产数据的模式不仅仅限于计算,所有可以批量生产高度一致性数据的方法,都有可能有益于材料数据科学,只不过现阶段通过高通量计算获得大批量的数据是比较容易。重要的是数据产生过程需要数据标准化,但并非人为规定的数据标准,而是保证在数据库内每个数据之间具有相同标准,具有可比较性,才能让这个数据集扩充下去。我们正在实践这样的事情,第一批的计划是做DFT计算数据库,未来还会有实验数据库,包括各种组合材料方法,各种批量制造材料、批量表征材料的方式产生的数据。
议题六:
描述子的构建如何能更反映材料构效更本质的规律?
尹万健:要做机器学习,数据质量非常关键。描述子其实是一个化学语言,就是定量描述一个复杂现象的简单标度,一个好的描述子需要两个条件:一是准确,二是简单,太复杂不容易被公众接受。我们通过自己的研究发现,AI确实能发现好的描述子,指导我们发现新材料,但AI发现的新描述子到底有什么物理意义,很多情况下并不清楚。如果能够进一步挖掘简单描述子背后的物理意义,就能得到新知识。这样的话,AI不仅帮助发现新材料,还可以教我们新知识,这可能是更重要的意义。
3
开放式讨论
Q:
材料科研界和工业界的合作目前还比较松散,这种紧密合作目前的最大挑战和难度是什么?材料科学家在推动这一进程中能做些什么?
汪洪:我们在做材料基因组的最终目标就是要应用,所以我们跟很多的企业建立了联系,而且有很多的沟通。但是往往谈到具体找一个案例来做的时候,但在执行上经常遇到一些困难。企业共有的担心的是数据的保密性,因为有些数据是他们的生命线。在这个问题没有解决之前,作为外单位的人与他们合作是有门槛和困难的。
刘淼:我想这是一个业界的共同问题,并不仅仅限于材料领域或者AI领域,我们和产业结合,彼此互为支撑的关系;当我们做应用研发时,应该解决的是企业材料具体应用的问题。这在过去是脱节的,但我们国家整体的方向,正在从基础科研逐渐向应用转化,所以我不太担心这个问题,这只是时间早晚的问题。具体如何和企业合作,我认为还得把材料研发过程中的一些好的工具、好的方式不断地做扎实、做细。当我们和企业坐在一起,能听懂彼此讲的话。这是一个开放且正在解决的问题,我觉得不用太担心。
刘宜晋:在这个问题上,我认为学术界的研究人员可以有所作为。比如我们做的工作可以努力朝着Open Source、Open Data方向努力,这能够从我们这一端把这个事情往前推,经过我们的努力来争取工业界的正向回应。
Q:
在学术界或科研界内部,如何能有效的实现AI+材料研究的数据共享?
汪洪:材料界有一个共识,急需要有一个交换机制。如果数据是由国家资助生产的,它的归属自然是国家,但若通过自身资源生产出来的数据,肯定也需要一定回报的,所以交换机制非常重要。客观上交换机制经历了很多讨论,但现在为止并没有一个特别清晰的结论。但在区块链的发展之下,它在商业领域应用了很多,在未来几年内可能会产生与此相关新的交换机制。如果将来所有材料开发都是数据驱动的话,那么数据就是一个基本的财富,数据的商业化和产业化会发展起来,这个过程中必然会产生比较实用的,广泛接受的交换或者购买机制,这时候可能更容易推广数据的共享。目前即使以国家项目来收数据,也存在很多困难,未来可能会有所改变,但今天还是大家一个共同的心愿。
Q:
人工智能或机器学习能否对材料合成方法和路径做一定的预测或规划?
刘淼:比如伯克利的Ceder团队试图用机器学习读文献,他们的数据库里已经有300万个文献,将300万个材料合成方法范例之后和计算数据做吻合,机器学习可以提取出一些材料的合成方式,那么其他的新材料就可以用这个模型去预测,我认为这是业界最领先的方式。一切皆有可能,大家只要善于思考,才有可能产生这样具有开创性的方案。另外我们可以用高通量合成、高通量表征这样的方式积累数据,当数据量到达一定程度,我们也能得到相应的知识。
Q:
机器学习能否对亚稳状态的材料合成有所帮助?
刘淼:这需要具体问题具体分析,总体就是如果有足够多的数据,数据质量足够高,多少会给出一些洞察。大家不要被已有的方式局限思路,我们其实在做一个信息化的方式,信息化是一种技术革命,带给我们很多可以做的方向,并不仅限于我们展示给大家的这些,有开创性的思维可能会更重要。
Q:
用数据驱动来进行研究可能解释性比较差,甚至要改写材料科学的基础理论,我们该如何推进材料科学理论的进步?
尹万健:我们的物理定律是人类几百年来慢慢总结和发现的规律,这些规律是不是能够代表全部?这是一个根本性问题。用我们做计算的语言来说,人类现有的知识结构(domain knowledge)是否有可能只是处于整个知识结构(knowledge landscape)的一个局域波谷处(local minimum),因此而出现“一叶障目,不见泰山“。就像下围棋一样,算法可以不按照人类千年来总结出来“定势”来走,最后还是把你给打败了,说明所谓的“定势”本身就不是最优的。现在机器学习有一个方向叫做“可解释的机器学习”,我们不仅要知道这个材料比其他材料好,还要知道为什么,它背后的规律在哪儿。所以有没有更好的方法让我们应用到材料科学上,更好理解背后的物理规律,这方面现在可能刚刚起步,这需要不同科学领域的人相互交流。
胡嘉冕:举一个机器学习预测有机分子性能的例子。研究人员通过机器学习定量分析了分子中每一个原子对最后结果的贡献度。他们发现,机器筛选出来的具有最大贡献度的原子正巧是该分子的催化活性中心。有时候,如果数据量太大,可以通过机器学习先筛选出统计意义上最重要的数据,然后我们再对该部分的数据进行重点分析,这样更为高效,或对新科学现象的发现起到促进作用。
刘宜晋:机器学习可以帮助我们捕捉到大量数据里面的蛛丝马迹,从而了解一些原来没有预想到的化学反应。这些信息可以反过来帮助我们理解整个流程,从而可以提供一些信息让我们进一步改进材料设计。
Q:
针对材料物质科学的年轻学生和刚加入这个领域的新生力量的,他(她)们需要有怎样的准备,训练和积累来迎接材料探索开发新时代的到来?
汪洪:现在的同学们随着计算机一起成长,对于未来要进入材料科学的同学来说,计算机技术是非常重要的一环,今后的学生,除了要打牢物理、数学、材料的基础,学习计算机、学习编程对于未来会有极大的帮助。所谓培养下一代的材料学家,就是要培养他们从思想上要认识到数据驱动是必由之路,能够掌握数据驱动这些基本工具。
刘宜晋:我们做研究必须得从自己的专业出发,一开始不要追求很复杂先进的算法,从小问题逐步开始,一切皆有可能,但是要明确自己的未来发展方向。
尹万健:我经常和我的学生说,千万不要追求大而全,也许我们做的工作,方式不是最完美,算法不是最好,但是一定要想我们是要解决什么科学问题,你把自己定位成什么很重要。如果定位成做材料的,首先要想清楚到底要解决材料里的什么问题、设计什么材料、如何改进材料性能,作为年轻科研工作者提出合适的问题非常关键,然后再想怎么样利用好机器学习这个工具。
刘淼:我建议比较年轻的同学或者从业者尽早规划自己的职业,只要找到自己的热爱,剩下的问题迎刃而解了。
图片
YOSIA Webinar 旨在促进交叉学科的深度学术交流,探讨科研尖端问题,期望通过启发跨学科、跨领域合作,为学术研究带来新思维角度。2020年,推出「AI+ X科学」系列主题,邀请来自不同科研领域的青年科学家,分享AI推动科学发现的科研案例,一同探讨AI赋能科学与技术创新的发展方向。
图片
未来论坛青年科学家创新联盟 简称“青创联盟”,为全球优秀的华人青年科学家提供学术探讨与思想交流的平台,在跨界碰撞中畅想未来,在交叉合作中孕育新思想,以共同推动跨界前沿科学的进步,从而发掘科研界的未来世界级领袖。 青创联盟成员可以在未来论坛平台上开展学术分享、科普宣传和科技成果转化。
来源:未来论坛
编辑:米老猫