科学家研发种子筛选AI模型,预测准确性超过90%,实现高效数字化的抗病品种筛选

全文2947字, 阅读约需9分钟,帮您划重点如下

划重点

01中国农业科学院植物保护研究所研发出抗病表型精准预测法,预测水稻稻瘟病、小麦麦瘟病和条锈病的准确性均超过90%。

02该方法利用机器学习预测作物的抗病性,通过全基因组关联分析获得抗病关联标记,以适当的P阈值范围内筛选标记。

03研究团队开发了基于基因型和亲缘关系的机器学习模型,如lightGBM_K、RFC_K和SVC_K等,能够准确预测多种病害的抗性水平。

04除此之外,该方法还能辅助筛选其他优良性状,如产量、外观品质等。

05未来,康厚祥计划与育种公司合作,将这项技术推向应用市场,提高抗病育种效率。

由腾讯混元大模型提供技术支持

“我们研发的抗病表型精准预测法,对于水稻稻瘟病、小麦麦瘟病和条锈病的预测准确性均超过 90%,这表明 AI 有望极大提高抗病品种的筛选效率,能为筛选抗病种质资源和抗病品种提供新方法。”中国农业科学院植物保护研究所康厚祥研究员表示。
图片
图 | 康厚祥(来源:康厚祥)
在近期一项研究中,他和团队发现利用机器学习可以预测作物的抗病性,并开发出了上述新方法。
通过全基因组关联分析获得抗病关联标记,以适当的 P 阈值范围之内筛选标记,此方法可以利用这些标记来快速、准确地筛选抗病资源和品种,既能节省时间又能节省人力。
基于基因型、以及结合亲缘关系后的已有机器学习方法,比如 lightGBM_K、RFC_K 和 SVC_K 等机器学习方法,能够准确地预测水稻稻瘟病、黑条矮缩病、纹枯病,以及预测小麦对于麦瘟病和条绣病的抗性水平。
研究中,课题组还给出了核心水稻品种对于多种病害的抗病鉴定结果。
对于育种公司来说,结合已经成熟且成本低廉的全基因组单核苷酸多态性(SNP,single nucleotide polymorphism)标记检测技术,就能准确地判断所有亲本、中间品种、或现有商业品种,对于多种病害的抗病性。
同时,也可以结合育种公司的亲本材料,在本次机器学习方法的基础之上,自行建立一个专属流程,实现高效、数字化的抗病品种筛选,降低抗病品种筛选成本、以及提高筛选效率。
同时,除了抗病性以外的其它优良性状,本次方法也能起到辅助筛选的作用。
图片
(来源:康厚祥)
图片
田间鉴病价格缘何高居不下?
据介绍,在全世界范围之内,当前的粮食生产安全依然面临一些重大挑战。
比如水稻稻瘟病、小麦锈病、赤霉病等重大疾病的流行,常常导致减产甚至绝收。
因此,选择和栽培抗病品种,对于保障粮食生产安全具有重要意义。
与作物产量、外观品质等性状不同的是,作物的抗病性是一个很难得到准确测量的性状。
因此,在育种过程中、或生产栽培过程中,如何从成千上万的育种材料中准确地筛选抗病材料,以及如何从众多栽培品种中准确地选择抗病品种,是植保学家和育种家一直努力实现的目标。
在当前的生产实践中,抗病品种的筛选手段依赖于田间抗病鉴定。
对于一些重大病害比如水稻稻瘟病的田间抗病鉴定,目前的市场价格大概在 1000 人民币/品种/地点,既耗钱又耗时。
举例来说:假如一家育种公司在育种过程中,通过不同组合产生 10000 个中间材料,就需要从 10000 个中间材料中,准确地选择出抗稻瘟病的材料。
如果使用传统的田间抗病鉴定方法,费用往往高达 1000 万人民币,而且至少要花费一个生产季节的时间才能完成。
研究表明 AI 与工业方面的结合大大促进了相关工业研究和产业的发展,而将 AI 和农业结合,目前还处于起步阶段。
作为一名从事农业生产相关的科研人员,康厚祥发现在农业生产中,经常面临一些很难采取传统方法解决的问题。
例如,如何从外观相似的成千上万品种资源中,精准挑选产量高、品质好、对病害抵抗力强的品种,以用于培育下一代优良品种?并能做到将传统方法的价格“打下来”?
基于多年的数据分析经验,康厚祥意识到或许机器学习能够解决这些问题。
AlphaGo、AlphaFold 等 AI 工具的陆续面世,更加坚定了他利用 AI 来解决农业生产问题的想法。
基于此,康厚祥和同事开始利用机器学习,来提高作物抗病品种筛选效率。
他希望可以开发一种新方法,在大幅降低成本的情况下,依然能够准确筛选出抗病品种,从而提高抗病育种效率。
图片
(来源:Engineering)
图片
当农业研究者开始自学 Python
而康厚祥真正决定拥抱 AI 则要从 2019 年底说起。当时,新冠疫情突然爆发,他被长时间限制在家里不能出门。
于是,他尝试改变常规的以湿实验为主的思维模式,开始思考如何利用机器学习方法来做科研。
有了这个想法之后,康厚祥开始学习计算机语言 Python,他发现 Python 不仅可以灵活地调动机器学习库,而且具有很多成熟的机器学习框架。
事实上,在新冠疫情之前他和团队,已经围绕实验室积累的数据,打造出一款结合机器学习的方法。
在此基础之上,他希望可以快速、精准地预测作物新品种的抗病性,打破费时费力的田间抗病鉴定传统方法,从而提高抗病育种的效率。
但是,从刚学会一门计算机语言、到马上利用它来解决科研问题,并非一件易事。
在农业研究者中,此前也鲜少有人利用 Python 来做课题。有时,程序中一个小小的语法错误,可能就得耗费半天来解决。
不过,功夫不负有心人。大约两个月之后,康厚祥学会了在 PyTorch 框架中利用稠密神经网来进行图片识别。
同时,他利用独热编码方式,解决了从种子基因型到种子图片的转化问题,学会了利用神经网络来进行机器学习,也学会了利用机器学习方法来分类数据。
为了处理原始数据和优化分析流程,康厚祥和团队尝试了两种方法。
第一种是利用原始的 SNP 数据;第二种是利用全基因组关联分析法(GWAS,Genome-wide association study),找到与抗病性相关联的 SNP 数据。
借此发现:相比第一种方法,在后续的机器学习过程中,第二种方法不仅耗时更短、而且准确率更高。
于是,通过 GWAS 分析法获得关联 SNP 数据之后,课题组开展了数据测试,并选取不同的 P 阈值作为数据输入。
结果发现:不管是 P 阈值过大、还是 P 阈值过小,都不利于机器学习建立精准的预测模型。通过此,他们也找到了几种重要病害的最佳 P 阈值。
而在建立机器学习预测模型期间,在机器学习的抽样上,他们采取了随机抽样的方法。
其发现,根据群体亲缘关系建立一个系统树后,再从系统树中通过均匀抽样进行学习,能够显著提高模型的预测准确性。
这表明对于机器学习来说,通过均匀投喂数据的方法所建立的模型,比随机挑选数据所建立的模型要更精准。
最后,他们利用所建立的机器学习模型,针对水稻稻瘟病进行预测。
预测结果显示:在这款模型的帮助之下,只需根据基因型就能精准地预测任何新品种的抗病性,准确性超过 90%。
随后,对于水稻纹枯病和黑条矮缩病这两种公认难以鉴定的抗病性水稻病害,课题组也在机器学习模型的帮助之下,获得了较高的准确性。
而当将其用于小麦的麦瘟病和条锈病的预测时,该团队也获得了较高的准确性。通过逐一的接种鉴定,他们进一步证实了预测结果的真实性。
日前,相关论文以《开发机器学习方法以准确预测植物抗病性》(Development of Machine Learning Methods for Accurate Prediction of Plant Disease Resistance)为题发在 Engineering[1]。
中国农业科学院植物保护研究所研究生刘琪、扬州大学/生物育种钟山实验室左示敏教授是共同一作,康厚祥担任通讯作者。
图片
图 | 相关论文(来源:Engineering)
据介绍,左示敏承担了大量的抗病鉴定工作。如前所述,水稻纹枯病和黑条矮缩病是两种极难进行抗病鉴定的水稻病害。
“但是,左示敏任劳任怨,带领团队针对几百个水稻品种,完成了黑条矮缩病多地点、以及纹枯病多致病型的抗病鉴定。”康厚祥说。
与此同时,本次成果的顺利完成,也让康厚祥真正体会到机会只给准备好的人。
在本次课题之前,他已经积累了多年的数据分析经验,也经常通过网络视频和购买书籍等方式自学代码编程。
这让他在 AI For Science 愈发流行的当下,得以结合自身所长和 AI 趋势,做出契合时代发展背景的新成果。
后续,康厚祥准备与育种公司开展合作,争取将本次技术推向应用市场。
参考资料:
1.Liu, Q., Zuo, S. M., Peng, S., Zhang, H., Peng, Y., Li, W., ... & Kang, H. (2024). Development of Machine Learning Methods for Accurate Prediction of Plant Disease Resistance.Engineering.https://www.sciencedirect.com/science/article/pii/S2095809924002431
运营/排版:何晨龙