Neuron | 于国强团队倡议脑数据科学新发展

全文1822字,阅读约需6分钟,帮我划重点

划重点

01清华大学自动化系于国强团队与美国普林斯顿大学等团队合作在Neuron发表关于大型脑科学科研合作项目中数据管理和分析的现状和建议文章。

02调研结果显示,在数据整合方面,54%的项目由1至2名数据科学家提供支持,数据科学家在项目的数据整合中发挥了关键作用。

03然而,在数据共享方面,大多数项目依赖非标准化的方式,只有一小部分数据以标准文件格式维护。

04为此,研究提出了改进策略和建议,包括激励数据科学家加入脑科学领域、建立统一的数据管理研究中心、倡导公开代码和数据等。

05该研究强调,研究人员的共同努力是解决这些挑战的关键,数据科学的应用可以推动脑科学发展。

以上内容由腾讯混元大模型生成,仅供参考

引言

2024年9月25日,清华大学自动化系、清华-IDG/麦戈文脑科学研究院于国强团队与美国普林斯顿大学神经科学研究所Manuel Schottdorf团队、美国华盛顿大学生理学及生物物理学系、美国华盛顿大学计算神经科学中心Edgar Y. Walker团队合作在Neuron发表题为Data science and its future in large neuroscience collaborations的建议文章。该文章通过调研21个涉及近500人的大型脑科学项目,聚焦于数据整合、数据共享、研究人员培训三大方面,分析并总结了当前大型脑科学科研合作项目中数据管理和分析的现状,针对其存在的不足之处提出了改进的措施和策略。

图片
21世纪的脑科学家经常处理大量数据集。脑成像数据、基因组数据和大型电生理记录通常与复杂行为相结合,可以进一步理解大脑如何运作;在医学科学中,现代统计和人工智能模型可以通过识别大脑结构、活动或相关遗传标记中的模式,帮助诊断和治疗神经系统疾病。这些数据需要整合,以全面理解大脑功能或功能障碍,从而提高科学研究的有效性和准确性,缩短新疗法的开发时间。现代脑科学可以成为跨科学领域创新与合作的推动力,但前提是有效地共享研究结果、研究工具和研究方法。数据的整合与共享对于大规模的科研合作至关重要。加强研究人员培训,使其掌握最佳的分析工具和数据科学方法同样重要。

为了调查数据整合、数据共享和研究人员培训面临的现状,该研究在美国国家卫生研究院BRAIN脑计划的资助的大型合作研究项目的研究小组中分发了调查问卷。一个典型的大型脑科学合作团队有大约40名科学家,分布在可能遍布世界各大洲的7个实验室中,拥有一个共同的科学目标。调研结果表明:(1)在数据整合方面,超过一半(54%)的项目由1至2名数据科学家提供支持,另外27%的项目计划尽快招聘一名。数据科学家的主要任务包括开发处理流程,其次是维护数据基础设施,紧随其后的是支持编写分析代码。数据科学家在项目的数据整合中发挥了关键作用。(2)在数据共享方面,大多数项目依赖Google Drive和电子邮件等方式进行数据共享或交流沟通,很少有数据使用数据管理工具进行管理和维护。只有一小部分数据以标准文件格式维护。数据共享呈双峰分布,一些合作共享所有数据,而大多数项目仅共享小部分数据。(3)在研究人员培训方面,理论研究人员和实验研究人员对数据科学培训的兴趣和参与度相似,但实验研究人员在计算机编程基础方面的经验不足,需要更多培训。虽然许多项目为研究人员提供培训,但培训范围有限,通常仅限于入职文件。

图片    (Credit: Neuron

针对调研中发现的不足之处,该研究提出了改进的策略和建议。(1)在数据整合方面,未来的脑科学家将在一个学科中拥有深厚的知识,同时对多个其他学科(包括数据管理和分析方法等)具备基本的素养。首先,新的资助方案可以激励数据科学家加入脑科学领域;其次,脑科学研究中应邀请数据科学家在数据收集过程中尽早参与,而不是将其视为干扰。第三,建立统一的一个或若干个脑数据科学研究中心可以助力大型脑科学项目的整合和协调,同时该中心应当向整个国家的科研人员开放,提供服务。(2)在数据共享方面,可以从以下几方面改善数据和代码标准化的问题:首先,利用现有代码可以促进协作并减少开发时间;其次,建立共同的代码和数据标准将提高共享的有效性;第三,NIH或第三方的评估和认证有助于确保数据科学的透明度;第四,倡导在与作者和编辑互动时公开代码和数据,以增强研究的可信度;最后,建议在商业云之外建立基础设施。(3)在研究人员培训方面,可以通过要求资助项目的研究人员修读计算机编程和数据管理课程、提供针对个别研究人员的培训机会、建立跨领域合作、共享培训材料并定期举办研讨会等方法提高研究人员数据科学能力和素养。

最后,该研究讨论并总结了脑科学中的数据科学及其前景。脑科学研究时常依赖于大规模和复杂数据集。大数据集对理解神经系统具有重要作用,处理这些数据的关键在于建立稳健的数据基础设施和合适的数据科学分析方案。当前,许多项目在编码实践和数据管理方面显著落后于其他领域的标准,降低了研究效率。此外,数据科学的资金问题也被视为一个瓶颈。脑数据科学家的角色与计算机行业中的高薪职位相似,这可能导致高素质人才流失。虽然提出了如招聘跨领域研究人员和改善培训等解决方案,但根本性的结构性变革同样是必需的。该研究进一步指出,科学数据访问的数据仓库和分析工作流程的保存,已成为推动学术进步的重要因素。因此,该研究强调,研究人员的共同努力是解决这些挑战的关键,数据科学的应用可以推动脑科学发展,并呼吁大家积极行动,共同应对当前的挑战,推动大规模神经科学研究中数据科学的发展与应用。



参考文献



责编|探索君

排版|探索君