研究发现微软Copilot回答10大常见医疗问题时，符合科学的回答占比54%

DeepTech深科技

2024-10-13 21:35发布于北京DeepTech深科技官方账号

全文1824字，阅读约需6分钟，帮我划重点

划重点

01一项研究揭示了人工智能聊天机器人在提供医疗信息方面的局限性和潜在风险，微软的AI助手Copilot在回答医疗问题时仅有54%的准确性。

02研究发现，AI生成的回答往往难以理解，平均弗莱施可读性分值仅为37分，意味着理解这些回答需要大学学历水平。

03由于此，研究人员强烈建议患者不要依赖AI驱动的搜索引擎和聊天机器人来获取准确、安全的就医信息。

04然而，研究人员也认识到，并非所有人都能轻易获得高质量的医疗建议，因此AI医疗信息准确性提高的必要性更加凸显。

以上内容由腾讯混元大模型生成，仅供参考

近期，一项最新研究揭示了人工智能聊天机器人在提供医疗信息方面的局限性和潜在风险，引发了人们对这类技术在医疗领域应用的担忧。

德国和比利时的研究人员对微软（Microsoft）的 AI 助手 Copilot 进行了一系列常见医疗问题的测试。

研究表明，尽管 AI 搜索引擎和聊天机器人在回答医疗问题时可以发挥一定的作用，但其准确性和安全性仍存在显著问题，可能对用户造成严重危害。

论文显示，Copilot 被要求回答在美国最常见的 10 个医疗问题，这些问题涉及约 50 种最常用的药品（包括处方药和非处方药），涵盖了药物的用途、作用原理、使用说明、常见副作用和禁忌症。

研究团队总共获得了 500 份答案，并根据可读性、准确性和完整性等指标对其进行了评分。结果显示，Copilot 仅有 54% 的回答能够提供符合科学的信息。

对于所提供信息的完整性，AI 答案的平均得分为 77%，最差的情况只有 23%。至于准确性，有 24% 的 AI 答案与我们已知的医学知识不符，3% 的答案则是完全错误的。

更令人担忧的是，其中有 42% 的回答可能导致“中度或轻度伤害”，22% 的极端情况甚至可能致命。这一发现无疑给 AI 搜索领域敲响了警钟，也凸显了当前 AI 技术在处理复杂医疗信息时的不足，以及在医疗咨询领域应用的潜在风险。

除了准确性问题，研究还发现 AI 生成的回答往往难以理解。使用弗莱施可读性分值（Flesch Reading Ease Score）评估后发现，Copilot 的回答平均得分仅为 37 分左右（最高 100 分，分数越高，越易读），这意味着理解这些回答需要大学学历水平。

即使是最容易理解的回答也要求读者具有高中教育水平，这无疑增加了患者误解信息的风险。

研究人员指出，AI 聊天机器人在理解患者问题的“潜在意图”方面存在明显不足。尽管在某些情况下“它可以提供完整和准确的答案，但频繁出现的信息缺失和不准确性可能威胁到患者的安全和用药安全”。

这些研究结果也反映了当前 AI 搜索技术的整体状况。

谷歌公司的 AI 搜索功能曾因推荐用户“吃石头”和在披萨中加入胶水等荒谬建议而受到批评。

最近，有用户在社交媒体上表示，谷歌的 AI 搜索将一位普通人的电话号码错误地列为一家视频游戏发行商的电话。

另一个例子是，AI 错误地声称关岛有 150 家“好莱坞星球”（Planet Hollywood）餐厅，而实际上全球只有 4 家。

面对这些问题，研究人员强烈建议患者不要依赖 AI 驱动的搜索引擎和聊天机器人来获取准确、安全的就医信息。他们强调，尽管 AI 技术潜力巨大，但面对生死攸关的医疗问题，患者必须咨询医生，因为目前的技术无法保证 AI 生成 100% 无误的信息。

然而，研究人员也认识到，并非所有人都能轻易获得高质量的医疗建议。在某些地区，看病并不容易，花销也不菲。

在这种情况下，Copilot 和谷歌可能成为许多人寻求医疗建议的首选，这更加凸显了提高 AI 医疗信息准确性的必要性。

尽管微软等公司在其产品中加入了“请务必核实 AI 回答的准确性”等警告，但这种做法的实际效果值得商榷。

正如一些网友所指出的那样，“如果我还是需要自己核实，为什么不直接跳过 AI 这个环节呢？”

这些研究结果对 AI 技术公司来说无疑是一个警示。微软曾希望通过 AI 技术提升必应搜索引擎的竞争力，但目前看来效果并不明显。谷歌也在为 OpenAI 的 ChatGPT 可能带来的影响而焦虑不已。

与此同时，一项来自苹果 AI 研究团队的新成果也证明了 AI 系统的脆弱。GPT-4o 和 Llama3-8b 等模型展现出的推理能力似乎只是“它们找到了复杂的规律”，而非人类的推理能力。他们仅仅在提示中添加了一句话，就让这些模型的推理能力大打折扣。

例如在一个测试中，他们问模型：“奥利弗星期五摘了 44 颗猕猴桃。星期六他又摘了 58 颗。星期天他摘的猕猴桃数量是星期五的两倍，但其中 5 颗比平均尺寸略小。奥利弗总共摘了多少颗猕猴桃？”

题目中关于猕猴桃尺寸的信息显然是干扰项，与最终答案无关，但 GPT-4o1-mini 和 Llama3-8B 在准确计算出星期天的猕猴桃数量并将三天总数相加后，选择将 5 个尺寸略小的猕猴桃减掉。这显然是有误的，会做应用题的小学生都不会犯这种错误。

总的来说，尽管 AI 在信息搜索领域展现出了一定的潜力，但目前的技术水平还远远不能满足准确性和安全性的要求。在 AI 系统能够提供更高准确率的引用之前，研究人员建议谨慎推荐使用 AI 驱动的搜索引擎。

无论是潜在的危险医疗建议、阴谋论还是政治错误信息，如果不加以谨慎对待，AI 都可能在某个不经意的时候造成严重伤害。

参考资料：

https://www.scimex.org/newsfeed/dont-ditch-your-human-gp-for-dr-chatbot-quite-yet

https://qualitysafety.bmj.com/content/early/2024/09/18/bmjqs-2024-017476

排版：初嘉实