上海交通大学教授沈为:校企联合,打造大模型的中国式创新路径丨数据猿专访

图片

2024 年,被视为大模型商业化落地元年。在这个充满机遇与挑战的时刻,“百模大战” 后的产业格局正发生着深刻的变化。

随着大模型市场容量及规模的持续增长,根据《2024-2028年中国大模型市场发展分析与投资战略规划报告》的预测,预计到 2028 年将达到 1179 亿元的庞大规模。回首过去,中国大模型产业市场规模从2020年的15亿元人民币迅速攀升至2022年的70亿元人民币,年均复合增长率高达116.02%。这一惊人的发展速度,彰显了大模型在中国的巨大潜力。

然而,在这个快速发展的过程中,我们也不得不面对国内外的竞争与差距,以及大模型自身的局限性。同时,人才培养成为了大模型发展的关键所在。为了能够清楚的了解到问题所在,数据猿与上海交通大学教授沈为做了详细沟通。

大模型并非无所不能

大模型在多个领域取得显著成就,尤其在自然语言处理上表现卓越,能准确理解并回答各种问题,提升智能客服效率和质量。在文本生成上,大模型能创作多样文本,助力新闻和内容创作。在机器翻译方面,它促进了跨语言交流。此外,大模型还能辅助医疗、金融等领域的数据分析和决策。

从近期这些大模型厂商公布的财报来看,均有所得。

百度创始人、董事长兼首席执行官李彦宏透露,百度智能云2024年第二季度营收达51亿元,同比增长14%,并持续实现盈利(非公认会计准则)。同时,AI贡献的收入占比进一步提升至9%,高于上一季度的6.9%。

科大讯飞财报数据显示,在大模型落地推广力度加快发展下,科大讯飞2024年上半年实现营业收入93.25亿元,同比增长18.91%。商汤的生成式 AI业务也成为其上半年财报的亮点,上半年该业务延续 2023 年高速增长态势,贡献营收超 6 成。

然而,尽管大模型在应用层做出了如此多的努力,我们必须认识到,大模型并不是万能的。沈为如是说。

沈为以计算机视觉与大模型结合的目前近况为例,解释了大模型的局限性。虽然大模型在自然语言处理方面取得了巨大的成功,但在计算机视觉领域,大模型的应用还存在一些问题。

例如,大模型在图像识别、目标检测等任务中的准确率还有待提高。此外,大模型在处理大规模图像数据时,计算量非常大,需要消耗大量的计算资源。因此,计算机视觉与大模型的结合还需要进一步的研究和探索。

其次在医学领域,尤其是处理疑难杂症时,依赖大型人工智能模型可能并不理想,因为这些病症往往缺乏足够的训练数据。然而,在一些数据量较大的领域,比如通过胸部X光片来识别肺部疾病,人工智能的应用则显得更为可行。尽管如此,即使是在这些领域,大型模型的准确率可能也只能达到70%左右,这对于医学诊断来说还是远远不够的。

在医学诊断中,准确性至关重要。理想情况下,人工智能应该能够以极高的准确率筛选出那些确实没有疾病的个体,从而减少医生需要复查的病例数量。同时,它也应该能够识别出那些可能存在问题,需要进一步检查的病例。这样,医生就可以将精力集中在那些真正需要仔细诊断的病例上,从而提高整体的医疗效率和质量。

就此来看,大模型虽然在自然语言处理等领域取得了巨大的成功,但在其他领域的应用还存在一些问题。大模型并非无所不能,我们需要客观地认识大模型的局限性,在应用大模型时,要结合实际情况,充分发挥大模型的优势,同时避免其局限性带来的风险。

国内应该有更好的创新土壤

从全球范围来看,国外大模型的发展起步较早,且在技术实力和创新能力方面具有较强的优势。

OpenAI的GPT系列为例,GPT-4凭借其卓越的语言理解、生成和推理能力,在各类测试中均保持领先地位,始终处于行业的领跑位置,为大模型的发展树立了标杆。

此外,像Google的Bard、Meta的LLaMA等也在不断发力,推动大模型技术的进步。国外大模型在基础模型能力提升方面持续投入,不断探索更先进的算法和架构,致力于提高模型的性能和智能化水平。同时,国外在大模型的开源生态方面也发展得较为成熟,如 Llama模型塑造了庞大的开源模型家族,吸引了众多开发者参与,形成了丰富的应用生态。

在2023至2024年间,大模型技术经历了显著的发展和进步,这一时期被视为AI技术的一个全新发展阶段。大模型技术在通用性和实用性上取得了显著进展,为多个行业提供了强大的技术支撑。高质量数据集和深度学习框架的不断优化是推动这一技术迅速发展的关键因素。

国内大模型的发展势头同样迅猛。在过去的一年中,国内大模型进入加速成长期,取得了实质性突破。百度的文心一言、讯飞的星火、智谱ChatGLM、商汤的“日日新 SenseNova” 等大模型不断涌现,整体表现逼近 GPT-4 ,部分模型的中文能力甚至与 GPT-4 相差无几。

然而,从产业发展过程的角度来看,国内在技术创新性上多次落后。我国在技术上一直处于跟随状态,与国外相比,在创新方面存在一定的差距。虽然近年来我国在人工智能领域取得了显著的进步,但在大模型的核心技术方面,如算法的创新性、模型的架构设计等方面,仍然落后于国外的先进水平。国外的科技巨头们在大模型的研发上投入了大量的资源,拥有强大的技术实力和创新能力。例如,OpenAI的GPT系列模型在自然语言处理领域取得了巨大的成功,引领了全球大模型的发展潮流。

不过,在应用层面,国内与国外相比有一定的优势。国内大模型在应用落地方面积极探索,在数字人、人形机器人等领域以及金融、医疗、法律等多个行业开展了丰富的实践。例如,在金融领域利用大模型进行风险评估和智能客服。

针对国内与国外的差距,沈为表示,差距并非体现在这一特定应用上,而是应该思考为何我们总是处于追赶状态。为何别人总能推出极具创新的东西,而我们往往在别人创新之后才发现,进而去追赶。

国内与国外在大模型产品上的差距在慢慢缩小,并且国内在应用层面做的很好,但是如果想要实现领先性,应该在创新方面多下功夫。实际上,很多专家包括众多院士都曾提到过,我们应该营造更好的创新土壤,而不是一直做追赶者。沈为补充道。

有武器也需要足够的火力支持

当然,关注大模型发展并非只是企业的事情,学校也是重要的补充,毕竟人才才是最关键所在。学校与企业之间的联动能够为大模型的发展提供重要的支持。

在这个充满挑战与机遇的征程中,学校与企业的合作显得尤为重要。

沈为表示,“学校,作为知识的殿堂和人才的摇篮,拥有着丰富的 “武器” 和 “兵源”。这里汇聚了众多顶尖的学者和充满创造力的学生,他们在理论研究方面有着深厚的积淀。学校的科研团队能够深入探索大模型的基础理论,从算法设计到模型架构,不断寻求创新突破。学生们则以饱满的热情和求知欲,积极参与到大模型的研究中,为项目注入新的活力。他们就像一支装备精良的军队,拥有着先进的知识武器和充足的兵源储备。”

“然而,在大模型的创新研究中,仅仅依靠学校的力量是不够的。企业作为市场的主体,拥有着学校所缺乏的 ‘火力支持’。其中,算力方面企业的优势尤为明显。大模型的训练需要庞大的计算资源,企业可以凭借其强大的资金实力和技术能力,提供高性能的计算设备和稳定的算力支持。这就如同在战场上,企业为学校的研究团队提供了强大的火力保障,使得他们能够更加高效地进行模型训练和优化。”沈为补充道。

总之,校企合作在大模型创新研究中扮演着关键角色,它促进了资源共享、人才培养和行业发展。学校提供科研成果,企业则提供算力和市场经验,共同加速技术转化。学生通过参与企业项目提升实践能力,企业也能从学校选拔人才。合作还推动了行业技术难题的解决,引领人工智能发展。

实际合作形式多样,包括建立联合实验室、企业赞助科研项目、邀请企业专家讲学等。例如,谷歌与斯坦福大学在自然语言处理大模型研究上合作,斯坦福提供理论和算法支持,谷歌提供算力和数据资源。微软与剑桥大学共同提升大模型性能,剑桥提供机器学习理论,微软提供技术平台。Meta与卡内基梅隆大学在社交网络内容理解和推荐系统大模型研发上合作,卡内基梅隆提供专业知识,Meta提供数据和计算资源。

这种合作模式是大模型时代创新发展的必然选择,有助于学校和企业共同攻克技术难题,培养AI人才,推动行业进步,确保在智能时代中保持领先地位。