美国重发展欧洲重安全,中国AI如何既要又要?

全文5039字,阅读约需15分钟,帮我划重点

划重点

01蚂蚁集团在本次世界人工智能大会上发布了多模态医疗大模型“蚁天鉴”2.0版和隐私计算产品“隐语Cloud”大模型密算平台。

02为此,蚂蚁集团与国内多家产学研机构联合发布《个人信息匿名化制度白皮书:技术与法律(2024)》和《隐私计算产品通用安全分级白皮书》。

03韦韬认为,数据是限制AI能力上限的关键要素,而密态计算有望成为数据可信流通的新算力。

04除此之外,蚂蚁密算计划与高价值场景数据合作,实现行业的规模化发展。

以上内容由腾讯混元大模型生成,仅供参考

在本次世界人工智能大会上,蚂蚁除了发布多模态医疗大模型和大模型安全一体化解决方案“蚁天鉴”2.0版,还发布了“隐语Cloud”大模型密算平台,并围绕隐私计算产品通用安全分级和个人信息匿名化制度,联合国内多家产学研机构联合发布《个人信息匿名化制度白皮书:技术与法律(2024)》、《隐私计算产品通用安全分级白皮书》两份白皮书。
相比更加贴近用户的智能助手,隐私计算似乎离大众相对遥远和陌生,但数据要素在蚂蚁集团未来的战略中举足轻重。
蚂蚁集团董事长兼CEO井贤栋在今年数字中国建设峰会上表示:蚂蚁面向未来十年的科技战略有两条主线,聚焦人工智能和数据要素,而隐语Cloud大模型密算平台便代表蚂蚁在数据要素领域的最新商业化进展。
今年5月31日,蚂蚁成立了蚂蚁密算科技,蚂蚁集团副总裁兼首席技术安全官韦韬担任董事长,释放了一个关键信号——蚂蚁在可信数据流通领域已经从技术探索开始走向市场。
根据蚂蚁的展望,在打通了数据孤岛实现可信数据流通后,上至智能大模型开发、AI智能医疗,下至农民小额贷款、新能源车险降价,数据要素流通将会彻底改变现在的行业生态,推动密态计算的普惠化。
在今年世界人工智能大会期间,蚂蚁密算董事长韦韬和CEO王磊向观察者网阐述了关于蚂蚁在密算领域的技术探索和商业蓝图。
AI短期看算力,长期看数据
作为近年来最火热的赛道,AIGC的出现让世界第一次见证了通用人工智能,这也让不少人畅享AI即将改变未来的一切,然而AIGC的应用领域依然存在不少的问题,在本次世界人工智能大会上就有嘉宾表示:“聪明的AI帮小忙,笨的AI捅大篓子”,AI在垂直行业还有巨大的发展和进步空间。
对于AI的现状和前景,韦韬认为AI目前发展属于初级阶段,但未来的前景极其光明。
他表示,目前AI领域发展仅仅处于发明蒸汽机时代。作为人类历史上第一次通用动力,蒸汽机诞生时也很粗糙,这并不代表开始时汽车跑不过马车就是蒸汽机的本质问题,而是需要进一步的迭代升级。
不少AI产业界人士也有类似的看法,华为人工智能战略与产业发展副总裁秦尧在人工智能大会《可信大模型助力产业创新》论坛上也表示,考虑到AI可能有50年发展进程,目前AI依然处于初级发展阶段,有很大的进步发展空间。
而提到升级,去年以来,“算力恐慌”一直是国产厂商绕不过去的一个词,对此韦韬有着不同的看法。
他认为AI时代由算法,算力,数据三个核心要素构成,三者目前均有进一步发展的空间,而相比算法和算力,数据才是限制AI能力上限的关键要素,无论在通用领域,还是专业的垂直领域,大模型最缺的都是数据,现在的算力恐慌,未来反而有可能变成算力陷阱。
韦韬解释道,目前大模型在推理层面由于成本和性能的限制,不可能用非常复杂的算力,因此所谓的缺算力其实是指训练时缺算力。而考虑到具体的使用场景,训练需要的算力其实存在上限,不会无限制的升高,盲目囤积算力反而可能会面临过度投资和能耗瓶颈的风险。
而比起可以克服的算力缺口,数据的缺口才是所有大模型企业面临的更紧迫的共性问题。
当没有数据的时候,无论是更聪明的大模型,还是最聪明的人都是做不出决策的,要硬做决策只能盲猜或者胡说八道。目前普遍出现的AI不够专业的现象,本质则是因为数据不足的原因,这个问题并不能靠算法和算力层面解决。
韦韬眼里,真正的行业专业应用问题的解决,都是依赖于关键数据的供给能不能按需获得,而中文语料的稀缺使得大模型无论在训练还是推理层面都存在较大数据供给缺口,也成为了限制大模型进一步发展的瓶颈。
要解决这个问题,最大的挑战便是如何让数据,尤其是高质量的数据流动起来让其发挥自身的价值。
打破数据流通壁垒,是挑战更是机遇
事实上,我国并不缺乏高质量的数据,但是现状则是,鉴于对于数据安全和数据隐私的担忧,越有价值的数据,反而愈发难以流通。
与美国“重发展弱监管”模式、欧洲的欧盟“强监管弱发展”模式不同,我国遵循的是“既要安全也要发展”模式,这也导致在数据充分开发使用上挑战更大。
想要实现数据流通,存在高昂的信任成本,韦韬表示:数据非常容易被拷贝、分割、加工、变形,本来你的数据产品应该有1000个用户、10000个用户的,但你可能卖到第十家的时候,全行业都已经有了,因为它非常容易被拷贝,所以商业利益也非常容易被侵害,大家也不愿意让数据流通。更糟糕的时候,明文流通时它会泄露,泄露后又很难追踪是谁泄露的,这件事情导致数据源方有巨大的连带风险,所以大家不敢流通。
而除了信任成本,数据的安全风险也不容忽视。
去年5月,由于一个月内出现三起内部代码泄露事件,三星彻底禁止员工使用ChatGPT,这也给国内的企业敲响了警钟,基于对大模型是否会拿数据二次训练从而泄露核心技术和商业机密的不确定性,大量公司不允许将涉及公司机密和商业信息的内容输入大模型。
而数据方对于数据安全的担忧也并非杞人忧天。IBM《2023年度数据泄露成本报告》显示,2023年数据泄露平均成本为445万美元,其中82%数据泄露涉及云环境,而更为令人担心的是,有三分之二的数据泄露当事方甚至对此毫无知觉。
除开外部泄露风险,内鬼员工引发的公司数据泄露在国内也屡见不鲜,近年来就有某招聘网站公司员工出售简历库信息造成2500万元损失,某快递公司快递员勾结外部人士泄露用户信息造成1200万损失等案件。
北京交通大学信息管理理论与技术国际研究中心(ICIR)特聘教授张向宏对此表示,过去几年,数据市场主要面临着三大问题:数据“供不出、流不动、用不好”,数据“不敢用、不能用、不好用”,数据“确权难、定价难、流通难”。在他看来,在数据要素化的过程中,这三大问题需要分别用资源(制度)、技术和商业模式的路径来破解。
针对数据“供不出、流不动”,在顶层设计上,从中央到地方已经开始出台一系列政策——《加快公共数据开发利用指导意见》《促进数据流通交易指导意见》《“数据要素×”三年行动计划(2024—2026年)》等均在加速理顺制度卡点。而根据国家数据局今年以来在公开官方场合的表态看,一系列落地细则和配套规则均在紧锣密鼓推进中。
在数据流动的政策东风之外,大模型行业的蓬勃发展对于数据,尤其是高质量数据的如饥似渴,也让蚂蚁看到了商业化的机遇,如果能够给数据方吃“定心丸”,打通数据孤岛,这不仅意味着大模型乃至整个AI行业的爆炸性发展,也代表蚂蚁能够将自己在数据要素流通的储备技术实现商业化,这也是蚂蚁投入密态计算的契机。
韦韬表示,我们认为数据密态是未来的必然趋势,密算会成为数据可信流通的新算力。只有让数据是密态方式流通的时候,才能发挥正向价值、控制负向风险。现在有太多的数据源方不敢把数据拿出来,因为发挥数据价值的过程本身会造成泄露,而密态研发会把以前不能流通的数据流通起来,发挥数据价值。
7月5日,蚂蚁密算在世界人工智能大会上发布“隐语Cloud”大模型密算平台,“隐语Cloud”大模型密算平台首批推出两大服务,分别为大模型密态托管和大模型密态推理。大模型密态托管,指模型提供方可以将模型加密后托管在平台上,一键完成云上密态部署,保护模型资产不被泄漏和盗用;大模型密态推理,是指数据以密态形式完成推理,保护用户交互时的数据安全、商业机密等。通过软硬件结合的可信隐私计算技术,在大模型托管和大模型推理等环节实现数据密态流转,保护模型资产、数据安全和用户隐私。
今天的密算就是十年前的云计算
实际上,对于数据安全的需求,市面上已经存在多家隐私计算公司提供相关的服务,但是翻看行业发展,由于高昂的安全成本,不仅没有公司近年来高速发展脱颖而出,甚至整个行业甚至显得有些挣扎,学界甚至传出了“不是隐私计算用不起,只是别的技术更有性价比”的言论,那么此时蚂蚁决定进入这个赛道,能否给行业带来变化呢?
对此王磊表示,数据安全客观存在成本,目前行业客户端用不起,企业端亏不起的现状背后是隐私计算只能解决小规模的应用,不仅很难实现规模化,卖软件模式的高交付成本也将极大地给数据安全企业带来经营压力。
对于蚂蚁密算的商业模式,王磊认为一方面隐语Cloud平台通过用可信芯片和机密计算技术来协同保障,从而大幅度降低成本,实现低成本密态计算,形成行业里规模化应用方案。
而另一方面,蚂蚁密算试图通过结果导向,通过保证安全来降低企业维护数据安全的额外成本,并通过数据获利分成的方式,实现数据方和蚂蚁密算的双赢。
针对企业是否有必要购买数据安全服务的问题上,韦韬也坦承,并非所有数据企业均需要数据安全服务,即便需要数据安全服务,数据安全的等级需求也不尽相同,蚂蚁密算计划从高价值场景数据入手,最终实现行业的规模化发展。
对于密算领域的发展前景,韦韬表达了积极地看法:十几年前,刚推出云计算的时候,大家觉得这不就虚拟化嘛,但真正上云后,上规模后,本质的改变发生了。我们认为算力从智算会走向密算,算力变化让全行业有巨大的改变,演变的速度及对中远期的影响比我们今天想象大得多。
对于目前客户画像和落地场景,蚂蚁密算也分享了数个实际案例。
在新能源车保险领域,由于新能源车驾驶习惯,驾驶人群属性均较传统燃油车有所区别,但保险公司的数据不足,无法通过多维画像对,为了覆盖新能源车的额外风险溢价,最终形成了新能源行业低电费,高保费的现状,而通过密态计算,保险公司有从险的数据,平台的从人的数据,以及从车的数据融合起来,更精准判断车主出险概率多大。蚂蚁密算通过和人保财险、平安产险、太平洋产险多家保险公司合作,使得新能源车平均保费下降了8%。
而在金融领域,蚂蚁密算则举了一个农民贷款的案例,过去由于贷款金额低,尽调成本高,农民贷款一直是利润微薄甚至是金融机构不赚钱的领域,成为了金融服务难以覆盖的盲区。
而农业农村部大数据发展中心与网商银行、蚂蚁集团联合发起的“农户秒贷”服务,基于隐语与星绽可信隐私计算技术栈,联合搭建金融风控模型,发起农户秒贷服务。截至2024年5月初,超过600万种植户获得贷款额度,其中78.3%农户种植面积不到10亩,是以往金融服务难以覆盖的人群。该项目还入选了2024年国家数据局“数据要素x”典型案例。
韦韬对观察者网表示,基于现有的行业实践,他对于行业的发展非常的乐观,认为最快三年,密算行业就将迎来高速发展阶段。
行业发展不能靠单打独斗
对于行业发展的终极形态,韦韬描述为数据要素行业将从最初的数据孤岛,就像自家水井一样自产自销,走向“桶装水”式的点对点流通,接下来大规模数据流转会发展为犹如“城市自来水网”的行业、区域间可信流通,走向未来更广域的可信流通,形成综合水利工程。大模型产业及各种数据要素的应用场景,都能充分应用数据要素价值,实现跨行业、跨地域和跨云可信流转和互联互通。
想要实现这样的商业生态,除了企业层面的技术实力,行业技术生态和技术体系标准也不可或缺。
而想要实现数据流通,面临的两个最现实问题便是个人隐私的保护,当数据不在某一个封闭系统内单独流转而变成互联互通,如何保障个人信息隐私成为了行业发展的重要课题。
值得注意的是,在本次人工智能大会上发布了《个人信息匿名化制度白皮书:技术与法律(2024)》,由对外经济贸易大学、大数据技术标准推进委员会和蚂蚁集团共同发布。这是学术与产业界首次联合从技术与法律双重维度对个人信息匿名化问题做系统性梳理与阐释、探寻可落地技术方案与数据流通解决路径。
而在提出了个人信息匿名化制度的同时,如何建立行业标准,让产业落地也成了行业发展的核心问题。
目前,由于隐私计算技术路线众多,在产业落地应用中出现“讲不清”“看不懂”“不敢用”的情况。隐私计算产品需要安全分级方法,可以为实际产品选型提供指导,让隐私计算技术在产业界得到大规模落地。
当前,虽然针对单一技术路线已经有一些安全分级标准,但是不同技术路线的分级标准完全无法对应,用户无法对所有的产品进行横向比较,这些标准也不适用于新出现的技术路线。因此,适用所有技术路线的通用安全分级思路亟需明确,来引导数据跨域流通不同技术的安全评估工作。
为了解决这个问题,在本次人工智能大会上发布了《隐私计算产品通用安全分级白皮书》
该白皮书由蚂蚁集团、中国通信标准化协会大数据技术标准推进委员会、深圳国家金融科技测评中心、清华大学牵头编写,另有国内16家机构参与编写。编写指导组成员包括中国科学院院士、国际密码协会会士王小云,浙江大学计算机科学与技术学院院长、区块链与数据安全全国重点实验室副主任任奎等权威学者。
在本次人工智能大会上,蚂蚁集团董事长井贤栋表示,未来智能化的用户体验,一定不是只靠一个大模型,而是需要全行业深度协作,需要很多的专业智能体共同参与、各司其职。蚂蚁坚持走开放道路,和行业共建专业智能体生态。
而对于蚂蚁密算而言,本次白皮书的发布也代表了蚂蚁准备深耕数据要素赛道,和合作伙伴共建行业生态和行业标准的决心。
蚂蚁集团CTO何征宇曾描述过蚂蚁未来的发展路线,蚂蚁的第一个十年聚焦于支付,第二个十年聚焦于金融,那么蚂蚁的第三个十年的重点便在于科技,蚂蚁希望未来成为大众眼中的一家科技公司。
在本次人工智能大会上,韦韬则描述了他眼中蚂蚁密算的使命:“蚂蚁集团是非常笃定相信数据的价值,我们的业务是也很依赖于数据。我们认为数据要素的流通将为全社会、全行业带来巨大的变革,这个变革是非常深远的。蚂蚁密算的使命是通过密算科技推动数据可信流通。”
自从2016年开始在隐私计算开启探索,到如今数据要素成为蚂蚁集团科技核心战略并成立密算公司开启商业化,在未来的人工智能时代,蚂蚁不仅想做C端的多模态智能助理,更想做B端的卖铲人。