WPS拿用户数据训练AI引发抵制，警惕大模型滥用隐私

南方都市报

2023-11-21 17:59发布于广东南方都市报官方账号

“我们将对您主动上传的文档材料，在采取脱敏处理后作为AI训练的基础材料使用”……近日，办公软件WPS在其隐私政策中的表述被质疑滥用用户隐私，引发关注。随后，其官方向用户致歉，并承诺用户文档不会被用于人工智能训练目的。

无独有偶。今年6月，一批匿名人士向OpenAI及其投资方微软公司发起集体诉讼，指责被告方从互联网上窃取和挪用了大量个人数据和信息来训练AI工具。起诉书声称“OpenAI在用户不知情的情况下，使用这些‘窃取’来的信息”。

变革浪潮下，大模型面临隐私和数据风险，引发网友抵制。

制图由腾讯混元大模型生成。

事件：

拿用户文档训练AI？

WPS道歉再度遭怼

近日有网友发现，WPS在其“隐私政策”中提到，“我们将对您主动上传的文档材料，在采取脱敏处理后作为AI训练的基础材料使用”。11月18日，WPS官方微博做出回应，在向用户致歉的同时，承诺用户文档不会被用于AI训练目的。

此前，WPS发布AI公测，声称可以帮助用户润色、续写、扩充文档，写表格公式，生成PPT等，有助于提升用户学习、办公效率。但是，WPS在隐私政策方面的越界行为，违反采集数据信息的“最小化原则”，涉嫌不当获取用户隐私信息。在广大用户和社会舆论的质疑下，WPS被迫公开致歉，并修改相关条款。

根据声明，WPS已更新《WPS隐私政策》，去除了容易引起误解的表述，并表示所有用户文档不会被用于任何AI训练目的，也不会在未经用户同意的情况下用于任何场景。此前WPS《隐私政策》则这样说：“我们将对您主动上传的文档材料，在采取脱敏处理后作为AI训练的基础材料使用。”

11月16日，金山办公宣布旗下具备大语言模型能力的人工智能办公应用WPS AI开启公测，AI功能面向全体用户陆续开放体验。据报道，公测前一天，WPS更新了隐私政策。更新版提到，“为提升您使用我们提供的包括但不限于在线文档美化、在线PPT美化、在线表格美化的AI功能的准确性，我们将对您主动上传的文档材料，在采取脱敏处理后作为AI训练的基础材料使用，同时请您放心，我们将采取严格的安全措施和技术手段对该资料进行去标识化处理，以降低其他组织或个人通过去标识化处理后的个人信息识别到您的风险、保护您的个人信息”。

尽管金山办公最新版隐私政策中，已搜索不到上述内容，但用户似乎并不放心。“训不训练用户也无法知道”“这可不是容易引起误解的描述”……用户的质疑集中在以上两点。对于“不存在表述有歧义”的用户质疑，金山办公相关人士向北京商报记者强调，“所有用户文档，不会用于任何AI训练的目的”。

存侵害用户权益问题被通报

用户百万字小说被WPS锁文

此前，WPS也曾发生过与用户隐私相关的麻烦事。2020年9月，广东省通信管理局披露的一批存在侵害用户权益问题的App中就有WPS Office，WPS Office 12.6.1版本涉及未征得用户同意前就开始收集个人信息或打开可收集个人信息的权限等多个问题。

隐私也不是WPS近年来与用户的唯一矛盾。2022年7月中旬，WPS因文件被锁事件登上社交平台热搜。

根据WPS当时的说法，“一位用户分享的在线文档链接涉嫌违规，我们依法禁止了他人访问该链接，此事被讹传为WPS删除用户本地文件”。次日，“WPS文件被锁”当事人却向媒体透露：5月自己100多万字的小说文稿当时确实被WPS封锁，无法打开使用，但从未说过本地文件被删，且在与WPS沟通过程中，WPS方曾承认是审核系统误判了敏感词，并承诺将加强系统检测漏洞。

一来一回后，WPS相关人士对当事人最新发声未予回应。多位网友则分享了自己曾被WPS锁文的经历。

用户也常常因会员服务问题吐糟WPS。截至记者发稿，在黑猫投诉平台输入关键词“WPS”，会出现超9000条投诉，大部分与会员服务有关。

2023年3月，记者曝光的WPS付费会员权益不明的情况也依然存在。目前WPS向用户提供超级会员Pro、超级会员两种会员服务，其中超级会员Pro享受超级会员权益、文库套餐、个人云空间1T、简历服务套餐、翻译500页/月、模板下载800次/月。

实际上，除了超级会员Pro、超级会员服务，WPS用户还可能遇到需要额外付费的增值服务——“海报权益”。进入WPS稻壳频道的海报页面，亮色的开通海报权益入口就出现在首页显眼处。这一权益也包括模板下载、版权图片、字体等。提到此情况，WPS相关人士保持沉默。

案例：

X/Twitter更新隐私政策

马斯克要拿用户数据喂AI

今年9月，X（原名Twitter，推特）突然更新了隐私政策，在2.1条例中，X明确写道：“我们可能会使用收集到的信息和公开可用的信息来帮助训练我们的机器学习或人工智能模型。”这意味着一旦在X上发帖创作内容，就意味着同意了马斯克可以将内容拿去喂AI。

除了这一条可拿用户数据免费训练AI模型的条例外，新版隐私政策还提出：将从9月29日开始收集用户的生物识别数据、工作和教育信息。如果用户同意，X会出于安全等目的收集用户的生物识别信息，让账号更加安全。

要知道，在马斯克前不久还威胁微软，要起诉它用X的数据训练AI。更是在ChatGPT刚上线一个月，就违背了收购推特之前签署的合同，关闭了OpenAI对Twitter“firehose”数据流的访问权限。

今年6月，一批匿名人士向OpenAI及其投资方微软公司发起集体诉讼，指责被告方从互联网上窃取和挪用了大量个人数据和信息来训练AI工具。起诉书声称“OpenAI在用户不知情的情况下，使用这些‘窃取’来的信息”。

再倒回前两个月，“AI换脸”诈骗曾引起很大讨论，据包头警方消息，骗子通过智能AI换脸和拟声技术，佯装好友对福州某科技公司法人代表实施了诈骗，10分钟内其被骗430万元。

制图由腾讯混元大模型生成。

风险：

AI“既帮助好人也帮助坏人”

大模型面临隐私和数据风险

大模型背后的网络安全

在火热的AIGC浪潮下，技术带来变革的同时，大模型面临隐私和数据风险及其阴暗面也越来越多被关注。

“人工智能就如同双面人，既帮助好人，也帮助坏人。善用AI可以创造很好的功能，但如果不能做好安全管理，AI可以带来危险。”在C3安全大会上，英普华亚太及日本区技术副总裁周达伟表示，在过去很注重的是远程安全和应用安全，但在大模型的产业互联网的时代，会更注重数据安全。

“去年年底到今年年初，生成式AI带来了灯塔式的指引，从国家到所有的企业都在拥抱这次变革。”亚信安全首席研发官吴湘宁在大会上表示，大家都希望通过人工智能、大数据、区块链、物联网等技术来改变现状。

但AI系统越来越大，本身的安全就是一个关键。亚信安全首席安全官徐业礼表示，“这里面涉及到AI投毒，模型被篡改，包括AI系统本身有边界防护端点防护的能力。”AI可以做坏事，也可能生成一些误导的信息，此外大量使用AI，尤其是境外的AI可能导致数据的泄露，这都是非常大的风险和问题。

亚信安全终端安全产品总经理汪晨认为，一方面，AI技术可以帮助甄别出病毒软件的DNA，即使他们进行了伪装，也能识别出其是黑是白；但另一方面，因为AI需要通过大量数据训练才能获得能力，如果用黑客污染过的数据进行训练，训练出的模型就会存在漏洞。如何确保训练数据的准确率和精准度，是目前面临的新挑战。

对于最近兴起的AI换脸诈骗，徐业礼对第一财经表示，这属于较为特别的网络安全问题，绝大部分针对个人发生，换成高管的照片或者模拟高管的声音录制一段语音发给员工，要求汇款转账，这些情况防不胜防，且由于AIGC的出现，诈骗实施起来越来越简单，成本极低。

徐业礼认为，对于一个管理较好的公司，这类诈骗绝大部分情况下不会发生，而主要发生在安全意识不强、汇款等流程极不完善的小规模企业。对于亚信这样的网络安全公司来说，一般也能通过邮件和公司的系统监测到商业诈骗邮件，对诈骗网站和钓鱼网站进行识别检测。

AI一直在安全领域有所应用。

不过，如ChatGPT这样的大模型是一个革命性的改变。ChatGPT事实上已经可以理解为过了图灵测试的终极阶段，达到了一般人的智能，如今AI行业也从1.0时代到了2.0时代，AI的功能越来越丰富，生成式AI能够模仿人、复制安全专家的能力，加速系统的自动化运营。

吴湘宁介绍，在过去安全行业已经可以通过自然语言的识别，通过报警、日志发现关键的威胁点，形成威胁图谱，但做威胁图谱的解读、写威胁分析报告，还需要专门的运维人员或安全专家，但今天随着大模型技术的发现，可以更容易把专家的知识和大模型进行结合，从而自动生成报告。

AI训练面临信息风险

在训练大模型中，作为必备要素的数据还面临着信息安全、来源确权等方面的挑战。

除了OpenAI被起诉使用用户数据进行用户画像或广告推广等商业用途，此前三星员工在与ChatGPT聊天过程中也发生过信息泄漏事故。

三星有员工要求聊天机器人检查敏感数据库源代码是否有错误，此外还有员工要求ChatGPT帮助其优化代码，以及将会议记录输入ChatGPT并要求它生成会议记录。

腾讯安全天御研发工程师周维聪对记者表示，在三星的案例中信息已存在风险，大模型提供方理应在该环节具备审核拦截能力，提示用户该环节中存在严重的泄露隐私风险。

周维聪表示，对于企业方，首先在技术层面可以对用户隐私信息进行相应的提取。另外，如果用户输入的内容涉及隐私相关信息，技术侧也可以鉴别出来，不会将这部分数据用于模型训练或商业产品的能力打造上。

制图由腾讯混元大模型生成。

说法：

当“安全”成为稀缺品，AI训练要守住底线

办公软件WPS在其隐私政策中的表述被质疑滥用用户隐私，引发关注。

类似现象不是孤例，今年早些时候，一款基于生成式人工智能的摄影软件“妙鸭相机”，也因存在滥用用户信息的嫌疑而引发用户批评。如今，随着以大语言模型为代表的生成式人工智能技术的快速发展，相关应用层出不穷。一边是“嗷嗷待大量数据以哺”的人工智能，另一边是越发重视个人信息保护的用户，如何善用数据，考验全社会数据治理的能力和成效，事关万千网民的切身利益。

必须将保护用户隐私和信息安全置于更重要的位置。不少人经历过：生活中说了句话、搜索了个关键词、开了一会儿“位置”，手机里的各种APP就会精准推送广告、“熟悉的人”，自己仿佛瞬间成了透明人。大数据时代，我们越发真切感受到，日常生活的“智能”越来越突出，“安全”有时却成为稀缺品。

越是一切都可以数字化、被收集、能分析，越要划出底线，筑起信息安全的堤坝，给用户选择甚至说“不”的权利。生成式人工智能也不例外，其发展初衷就是为了造福民众。倘若在一开始的数据收集和训练阶段就滥用用户隐私，岂非与目的背道而驰？今年7月，我国出台《生成式人工智能服务管理暂行办法》，明确“不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益”，强调开展训练数据处理活动“涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形”。原则已经明确，红线已经划出，需要相关从业者严格遵守、自觉践行。

当然，严格保护并不意味着“一刀切”地禁止。有人把数据比作信息时代的“石油”，把算力比作最重要的“基础设施”，足以说明其重要性。特别是对于生成式人工智能来说，海量的数据“投喂”，才能培养出更聪明、更先进的版本。特别是，在网络世界，中文数据特别是高质量中文数据，与英文等其它语言的数据相比，仍有差距，这可能成为发展生成式人工智能的一个先天劣势。也只有在依法、科学的前提下，充分挖掘各类中文数据资源的价值，补短板、锻长板，才能确保我国在生成式人工智能等前沿领域，无论是研究还是应用层面，取得领先。

发展和安全，从来不必然是矛盾的、对立的。当前，全球不少科学家、企业家都呼吁在生成式人工智能领域“慢下来”，这不是为了停滞技术进步，而且希望与之相关的隐私保护、科学伦理、法律制度等能够尽快“赶上来”。在我国，更好统筹发展和安全，一直是处理这类问题的一个基本遵循。无论是监管者还是从业者，更好把握发展与安全的辩证法，平衡好各方面利益，才能推动生成式人工智能健康可持续发展。相信在人类智慧的把控下，我们一定能用好技术这把“双刃剑”，趋利避害，让“甘蔗”实现“两头甜”。

整合：黄亚岚

来源：人民日报、第一财经、澎湃新闻、北京商报、虎嗅

查看原图 378K