“百模大战”之后,大模型在行业应用过程中如何克服幻觉问题?|2024世界人工智能大会

幻觉问题是大模型被用作生产力工具的核心挑战之一,如果大模型生成的内容不可控、难以解释,就很难满足专业领域对准确性、可靠性、严谨性的要求。
在2024 WAIC主题论坛上,可信大模型公司无限光年联合创始人徐盈辉博士谈及大模型的幻觉问题。
他说,人工智能在多年发展长河中形成了符号学派和联结学派两种不同的路径和理念。神经符号技术将符号学派的推理能力与联接学派的学习能力有机结合,大幅提升生成式AI在行业应用中的可信生成能力,降低错误率、提高可靠性。
徐盈辉博士提到了诺贝尔经济学奖得主丹尼尔·卡尼曼,表示他们提出的“人类思维有快与慢两个系统”的理论,符号计算与大模型的结合,不仅能用神经网络实现快速的“黑盒”概率预测,更能进行慢思考的“白盒“逻辑推理。
这两个系统的融合代表着通往未来通用人工智能(AGI)的重要技术方向。
对此,无限光年试图在完全不可解释的“黑盒”模型与完全可解释但性能不够的“白盒”模型之间,探索“灰盒”的可能性,用于解决垂直领域的专业问题。
大会上,无限光年发布了可信光语大模型。据介绍,该大模型结合大语言模型与符号推理,有效解决幻觉问题,大幅增强模型可信度,赋能金融服务、医疗诊断等垂直领域。
以金融领域为例,特许金融分析师(Chartered Financial Analyst,CFA)考试是全球投资业最严格、含金量最高的资格认证,分为三级考试,包含丰富的金融类知识问题和计算推理问题。基于CFA数据集,无限光年金融大模型在一级和二级考试中准确率均超过GPT4-Turbo和Llama3。
在一级和二级考试准确率的表现上,无限光年金融大模型得分分别为0.7772和0.5518,GPT4-Turbo分别为0.7177和0. 5259,Llama3分别为0.6723和0.4812。
图片
在医疗领域,无限光年医疗大模型在权威医疗数据集MedBench上,API和自测榜双榜第一,是首家双榜超过90分的医疗大模型。API榜综合得分90.4,在复杂医学推理,医学语言理解,医疗安全和伦理三个维度第一。
在产业应用当中,无限光年与头部证券公司合作推出AI投研助手,为分析师等专业人士提供包括信息总结分析、范式写作和精准搜索在内的一站式功能。目前,该产品已被多家证券公司和资管机构使用;无限光年也与国内头部三甲医院合作,共同基于可信技术创新打造医疗行业大模型,在体检报告解读方面有效协助医生提升报告效率和准确度。
徐盈辉博士表示,在经历“百模大战”后,模型的行业应用已成为大模型的发展重心。但在深入专业化场景时,当前通用大模型的表现并不理想。无限光年团队将持续探索新一代可信的“灰盒”大模型技术,让垂直领域大模型更精准、更可信,成为“金融顾问” 、“专业医生”和更多领域的专家。