人工智能时代的信息检索: 应用现状、现实挑战与应对策略

作者:刘沫潇(北京外国语大学国际新闻与传播学院副教授、北京中外文化交流研究基地特聘研究员);尚晓倩(北京外国语大学国际新闻与传播学院博士研究生)

来源:《青年记者》2024年第8期

图片

导 读:

本文聚焦信息检索领域的人工智能技术,在描绘人工智能技术在信息检索领域的实际应用情况的基础上,分析其带来的风险与挑战,并提出可能性应对策略。


随着OpenAI的ChatGPT和Sora等生成式人工智能(AIGC)产品的问世,人工智能在信息行业的应用潜力引起广泛关注。本文聚焦信息检索领域的人工智能技术,在描绘人工智能技术在信息检索领域的实际应用情况的基础上,分析其带来的风险与挑战,并提出可能性应对策略。

一、人工智能技术在信息检索领域的应用现状

检索已成为人们获取信息的主要途径之一。目前,能够进行信息检索的渠道非常多元,包括搜索引擎、网站、应用程序、社交媒体平台、内容聚合平台以及传统的广播和电视节目等。其中,搜索引擎在信息检索方面对人工智能技术的应用比较广泛和深入。

在传统信息检索领域,谷歌、雅虎和必应等知名搜索引擎扮演着关键角色,它们能够根据用户的查询快速显示相关内容。这些搜索引擎通常设计为以网页标题、网址和简要内容描述的形式来呈现搜索结果。其中,简要内容描述包括对网页标题的补充介绍和“阅读更多”的选项,用户基于网页标题和简要内容描述来决定是否点击网址查看更多信息。但这种检索并不完美,比如网页显示的简短文本很多情况下并不能很好地概括所选结果的核心内容,用户往往需要增加网址点选步骤才能进一步判断信息的适切度。已有调查显示,全球每天的搜索查询虽然高达约100亿次,但其中大约有一半并未得到准确答案[1]。随着人工智能技术的深入应用,这一问题将逐渐得到改善。目前,总体来看,人工智能技术主要从提升对用户搜索意图的理解和优化搜索结果呈现两个方面,对信息检索产生重要影响。

(一)人工智能技术提升对用户信息检索意图的理解能力

在理解用户的检索意图方面,自然语言处理(Natural Language Processing,以下简称“NLP”)能力是关键。近年来,基于NLP的快速发展,人工智能模型能够更好地理解人类语言并进而生成较高质量的“类人式”反馈。具体而言,NLP利用计算机科学、人工智能、语言学和统计学等多个学科的知识和技术,通过构建算法和模型来理解和处理自然语言文本。其通常包含以下关键工作机制:词嵌入(word embeddings)技术将词汇与上下文结合,使计算机得以据此捕捉词汇间的语义相似性和关系;神经网络模型(neural network model)对语义进行编码和理解;注意力机制(attention mechanism)可以更好地捕捉人类语言中的重要信息;情感词典(sentiment lexicon)用来判断情感极性(如积极、消极、中性);情感分类器(sentiment classifier)则通过不断的机器训练来识别文本的情感倾向[2]。

NLP之所以在信息检索中发挥重要作用,首先,是因为NLP可以通过识别关键词或句型结构,更准确地处理用户输入的自然语言文本,理解用户的搜索意图。其次,NLP可以理解输入文本的语义信息和情感色彩,识别用户检索的情感倾向,理解用户的需求和偏好。再次,NLP可以在数据库中搜索相关文章,通过计算文本相似度,找到最匹配用户需求的内容。此外,NLP还支持多语言处理,使得搜索引擎能够应对多种语言的搜索查询。

(二)生成式人工智能改善信息检索的结果呈现

在改善信息检索的结果呈现方面,生成式人工智能发挥重要作用。AIGC能够分析用户的搜索意图和语境,并生成与之相关的内容,丰富搜索结果的多样性,提升搜索结果的质量。例如,ChatGPT等生成式模型可根据用户的查询生成相关的新闻摘要、评论或解读,帮助用户更快速地了解并理解新闻信息[3]。通过这种方式,AIGC提升了搜索结果的信息量和可读性,为用户提供了更加丰富和个性化的检索体验。

目前,OpenAI的ChatGPT和Google AI的Gemini(原名Bard)是两个突出的大语言模型(LLMs),它们在生成人类样式的响应、解决复杂问题以及与用户进行多轮对话等方面表现出色[4]。ChatGPT基于GPT-3.5和GPT-4,利用强化学习和人类反馈进行训练,提高了预测的准确性和响应的质量。在OpenAI的技术支持下,微软更新了必应搜索引擎和Edge浏览器,在其中添加了先进的人工智能对话模型,将搜索、浏览和聊天整合为统一体验,用户可以在检索信息时直接与人工智能聊天机器人交流,在聊天界面提问自己想要搜寻的内容[5]。这进一步提升了搜索结果的准确度和对用户的适切度。虽然ChatGPT在大数据处理能力和响应准确性等方面表现出色,但Gemini与其形成了有力竞争,特别是Gemini基于对话应用语言模型(LaMDA),拥有实时访问互联网数据的独特优势。

当ChatGPT、Gemini等大语言模型在国外信息检索领域的应用备受关注之时,我国的搜索引擎也已开始运用人工智能技术提供丰富多样的检索服务。比如,百度搜索引擎利用自然语言处理和深度学习技术,精准理解用户的搜索意图,为用户提供高质量的搜索结果。搜狗搜索也通过机器学习和语义理解技术,不断优化搜索算法,提高搜索结果的准确性和相关性,以满足用户的个性化需求。另外,部分搜索引擎还应用了数字人(digital humans)技术。数字人是一种通过人工智能和计算机图形学技术创建的虚拟人物,具有与真实人类交互的能力。在信息检索中运用数字人,可以通过模拟真实的人类互动,提升用户的参与度和检索体验,例如百度的数字人“度晓晓”。数字人也可作为检索结果的一部分呈现给用户,实现一种更加生动和直观的信息传达。

从自然语言处理到机器学习,再到深度学习,各种人工智能技术的不断创新和应用,使得搜索引擎能够更加智能化地理解用户的检索意图,提供更加准确和个性化的搜索结果。这些创新将人工智能技术与传统搜索引擎算法整合,从而提升搜索结果的质量和用户体验,推动信息检索不断向精准化、定制化、个性化方向发展。

二、信息检索应用人工智能的风险与挑战

人工智能技术在与新闻业结合的过程中有着广泛的应用领域和想象空间,带来的不仅是前沿技术,更是新的媒体生态。但在技术的具体应用过程中,也存在着一些隐忧,具体到信息特别是新闻性信息检索领域,需要警惕以下三个方面的风险与挑战。

(一)隐私安全与数据偏差

隐私安全是公众对包括新闻业在内的信息行业应用人工智能技术的主要关切之一。公众担心智能爬虫会窃取个人信息,隐秘地收集用户的搜索历史、地理位置、偏好等。对这些信息的滥用或未经授权的使用(如将隐私数据用于用户行为分析、广告投放、新闻内容推荐等)不仅可能导致用户的隐私被侵犯,处理隐私数据的不当方式还会影响模型算法,进而干扰信息检索结果的准确性和个性化程度。

数据偏差问题也值得关注。由于算法和人工智能系统依赖大量数据,数据的可用性和质量对信息检索中的自动化决策系统(automated decision-making systems)的表现至关重要。自动化决策系统关系搜索结果的排序,可决定哪些文章出现在搜索结果的头部位置。如果由于技术问题导致用户选择信息的偏好数据出现追踪错误(如追踪结果不准确或无法追踪),则会影响检索结果的展示频率和效果,甚至产生误导性的搜索结果,使用户获取的信息不准确或不完整。[6]同样,数据的错误或不准确也可能导致算法无法正确解读信息检索中的语义内涵,引发低相关度的信息出现在搜索结果中。长期来看,如果用户的信源被限制或误导,他们将无法接触到关键信息,甚至会反复看到错误或不全面的信息,影响对所处世界的理解。此外,部分伪造数据还会欺骗算法规则,遮蔽算法的准确性,这凸显了数据质量在信息检索中的重要性。

(二)搜索算法的偏见与透明度

搜索算法的偏见与透明度是人工智能时代信息检索的又一重要挑战。人工智能算法通常基于大量数据进行训练,而这些数据本身可能存在性别、种族、政治观点等方面的偏见。数据偏见会反映在算法决策系统中,影响检索结果的公正。ChatGPT就曾出现过涉嫌算法偏见的案例,它在生成内容时采取的幽默策略被一些群体视为潜在的冒犯,具有发表种族歧视、性别歧视言论的潜在风险[7]。除了数据本身可能存在偏见外,搜索引擎公司在设计搜索算法时也会受到各种因素的影响,如种族、性别、职业身份、政治偏向等,这些均可能导致其在选取数据、设定权重、分析语义和结果排序时存在倾向和偏见。在搜索算法偏见的影响下,某些信息被优先展示,而其他信息则被降权呈现,甚至被排除在搜索结果之外,从而影响用户对全面、客观信息的获取。

在搜索算法透明度方面,搜索引擎公司往往对其搜索算法高度保密,不公开具体的算法细节和工作原理,这种不透明性也被称为算法的“黑箱”特征。搜索算法的低透明度使用户难以准确判断检索结果的客观性和可信度,易导致用户对检索结果产生疑虑和不信任。

(三)技术误用与不当人为干预

人工智能技术的误用是一个日益引起关注的问题。人工智能系统的开放性和灵活性使得其有可能被恶意利用,对政治、数字和物理安全构成严重威胁。以信息检索领域为例,黑客可能会利用技术漏洞操纵搜索结果排序,甚至篡改搜索内容,传播虚假或有害信息。这会误导用户对检索结果的判断,影响其认知和行为,甚至损害用户的身心健康和财产损失。

不当人为干预主要是指政治团队、商业资本或个人为了达到特定的政治、经济或其他目的,对搜索算法进行违背公众利益的蓄意操控,这主要关涉算法权力。它们可能通过技术手段有意筛选检索结果或更改检索结果排序,使用户在进行关键词检索时更容易获取特定来源的信息,或支持特定立场或观点的信息。通过这种方式,相关利益主体较为隐蔽地干扰用户的信息获取,甚至控制社会舆论,影响公众的现实选择。

三、人工智能时代信息检索风险的可能性应对策略

为系统应对人工智能时代信息检索领域的潜在风险,需采取综合防范措施。

(一)保护用户隐私,降低数据偏差

针对用户隐私方面的风险,信息检索系统应该以更加明确的方式告知用户的个人数据的使用方式,并为用户提供完备的、便捷的隐私和个性化设置服务,包括允许用户切断搜索引擎与第三方平台的数据关联,提供限定精准广告投放的功能选项,根据用户需求更新保护隐私的附加组件等[8]。在降低数据偏差方面,信息检索系统应审慎评估信息来源的可信度与信息本身的时效性、真实性和准确性,并在合法合规收集、追踪用户数据的基础上,利用人工智能技术提升信息与用户的相关度。此外,信息检索系统还可依托区块链技术,对部分核心数据进行去中心化的数据存储,降低关键数据被篡改的风险,同时确保相关信息内容的完整性和历史记录的可追溯性,为后续技术调试提供便利。

(二)减少算法偏见,提升算法透明度

在训练人工智能算法时,信息检索系统一方面应使用多元化的数据集,减少数据单一化的负面偏向,开展更具包容性的编程实践;另一方面,也应加强对算法开发各环节的监督和评估,减少算法偏见,确保搜索结果的公正性和客观性。此外,由于AIGC模型往往需要基于用户大数据进行深度学习,用户行为至关重要,因此还可赋能用户纠偏,让用户拥有更多的知情权和对信息检索系统的控制权。比如,信息检索系统可在一定范围内向用户展示信息筛选和排序的依据,并建立用户反馈机制,根据用户反馈对算法和搜索策略进行必要调整,这有助于完善搜索算法逻辑。为解决前述搜索算法的低透明度问题,还有必要提升平台的开放性,使算法的运作机制更透明,这有利于各利益相关方评估和纠正算法偏见,进一步增强搜索结果的可解释性及可信度。

(三)严格监管审核,完善法律法规和行业标准

在技术误用与不当人为干预方面,未来需要建立更加严格的监管机制和审核制度。比如成立独立的信息审核机构,加强对搜索引擎公司和相关方的监管,及时发现和处理技术误用和不当人为干预行为,维护搜索结果的客观性和公正性。此外,健全的法律法规和行业标准也至关重要性。欧盟颁布的《人工智能法案》可能对人工智能技术应用产生深远影响。该法案旨在保护用户基本权利,确保人工智能技术应用的伦理和责任,并在欧洲范围内建立统一的监管框架。[9]我国发布的《人工智能标准体系建设指南》也提出了人工智能标准体系建设的目标、原则和任务[10]。这些法规和标准都为完善信息检索领域的监管和审核提供了启发和依据,比如进一步细化检索结果的质量标准和信息安全标准,优化检索结果排序以便更好地协调社会利益和经济利益等。

四、结语

总之,人工智能时代,信息检索日益呈现智能化发展趋势。随着自然语言处理和深度学习技术的不断突破,信息检索将更好地理解用户的搜索意图和个性化需求,提供更加精准化的检索结果。诚然,目前该领域依然存在一些问题和挑战,需要多方协同,综合应对;但展望未来,仍有很多值得期待的创新。比如,信息检索系统可能包含更多的多媒体内容,丰富检索结果的呈现形式,满足多样化的信息获取需求;其还可以拓展信息检索的社交化功能,促进用户间的交流和互动;语音检索服务或将迎来进一步的大发展,促使信息检索变得更加智能、普惠和便利。

参考文献:

[1]Schj?tt Hansen A, Hartley J M. Designing what’s news: An ethnography of a personalization algorithm and the data-driven (re) assembling of the news[J]. Digital Journalism, 2023, 11(6): 924-942.

[2]Li W, Liu P, Zhang Q, et al. An improved approach for text sentiment classification based on a deep neural network via a sentiment attention mechanism[J]. Future Internet, 2019, 11(4): 96.

[3]Fui-Hoon Nah F, Zheng R, Cai J, et al. Generative AI and ChatGPT: Applications, challenges, and AI-human collaboration[J]. Journal of Information Technology Case and Application Research, 2023, 25(3): 277-304.

[4]Ahmed I, Roy A, Kajol M, et al. ChatGPT vs. Bard: A comparative study[J]. Engineering Reports, 2023(1): 1-18.

[5]Siegle D. A role for ChatGPT and AI in gifted education[J]. Gifted Child Today, 2023, 46(3): 211-219.

[6]Schultz C D, Koch C, Olbrich R. Dark sides of artificial intelligence: The dangers of automated decision-making in search engine advertising[J]. Journal of the Association for Information Science and Technology, 2024, 75(5): 550-566.

[7] Fraser K C, Kiritchenko S, Nejadgholi I, et al. What makes a good counter-stereotype? Evaluating strategies for automated responses to stereotypical text[C]//Proceedings of the First Workshop on Social Influence in Conversations (SICon 2023), 2023: 25-38.

[8]刘沫潇,马克·张. 挑战“黑箱”:用户如何与社交媒体算法博弈 [J]. 青年记者, 2023(11): 96-97.

[9] Helberger N, Diakopoulos N. The European AI act and how it matters for research into AI in media and journalism[J]. Digital Journalism, 2023,11(9):1751-1760.

[10]方师师,贾梓晗.AI如何做新闻:基于全球106个案例的分析(2017-2022)[J].青年记者,2023(01):56-59.

本文引用格式参考:

刘沫潇,尚晓倩.人工智能时代的信息检索:应用现状、现实挑战与应对策略[J].青年记者,2024(08):41-44