周志华、李航、邱锡鹏、李沐、Aston Zhang 5位专家指导,机器之心发布ML术语中英对照词表

机器之心原创
机器之心编辑部
几年前机器之心发布了一个旨在构建 AI 领域术语库的开源项目「Artificial-Intelligence-Terminology-Database」(简称「AITD」)。最近,该项目迎来了第三版。除了常规的更新之外,机器之心还在周志华教授、李航博士、邱锡鹏教授、李沐博士、Aston Zhang 博士等领域专家的指导及帮助下形成了「机器学习」专题篇。未来,机器之心还将会持续完善术语的收录和扩展阅读的构建,另外我们也希望更多 AI 技术社区成员参与到术语库的构建之中,具体的参与方式可以查看文章详情。
2017 年,机器之心发布了第一版人工智能术语库「Artificial-Intelligence-Terminology-Database」(以下简称「AITD」),一个旨在构建 AI 领域专业术语库的开源项目。术语库的前两版主要是将机器之心在编译技术文章和论文过程中所遇到的专业术语记录下来,希望为大家写论文、中文博客、阅读文章提供帮助。此外,读者可以积极指出我们编译的不当之处,以提高我们的专业性。同时,这也是一份开放的表单,希望越来越多的人能够提供增添、修改建议,为人工智能的传播助力,共同推进知识高效、广泛地传播。
2021 年 6 月,《动手学深度学习》的作者李沐博士在与机器之心「AITD」项目团队的交流中提到自己当年在校学习时也曾经因不同的教科书中术语使用标准不一致、中英术语夹杂等问题感到困扰。与此同时,李沐博士提到李航博士正在联合周志华教授、邱锡鹏教授等多位机器学习领域经典教科书作者,希望一起统一下领域术语的翻译,为社区统一专业术语的中文使用提供一个参考。基于这样的一个契机,机器之心「AITD」项目组在周志华教授、李航博士的主持下,邱锡鹏教授、李沐博士、Aston Zhang 博士的指导和帮助下,完成了对多本机器学习领域经典教科书术语中文翻译统一,并发布「AITD」Version 3.0,在 AI 术语库中加入「专项领域」系列。
在与专家讨论的过程中,不同的专家对同一个词的翻译也会有分歧。在这种情况下,专家们会从自身经验、理解出发,帮助其余专家理解自己这样翻译的一个背景知识。经过专家们不断的讨论,对于一个词的翻译最终会接近或达到一个共识。
在此过程中,我们也记录了一些有意思的结果。例如 “Robust” 经常会被翻译为“鲁棒性”,专家们认为这个翻译缺少了中文的美感。此外,在控制论中有将 “Robust” 翻译成“强健性的,在经过专家讨论之后,我们将“稳健性”作为“Robust”的推荐翻译;“Dropout”一直没有较好的翻译,几位专家根据 Dropout 原文中的定义,一致认为“暂退法”是比较较为合适的翻译;“Zero/Few/One-shot Learning”一般翻译为“零/少/单样本学习”,但专家们认为“样本”不严谨,因为它并不是真的“零/少/单”样本,而是在建立一个映射之后,再利用少量样本进行迁移。翻译成样本的话,很容易跟学习理论中真正的“小样本学习”混淆了。尤其是“shot”本身并没有“样本”的含义,而是“快照”的含义更接近,于是专家们倾向翻译为“零/少/单试学习”。以下是李航博士微博关于一些推荐翻译介绍的截图。
图片
李航博士微博截图,注:其中「掩玛」一词书写错误,应为「掩码」,已纠正。
图片
项目地址:https://github.com/jiqizhixin/Artificial-Intelligence-Terminology-Database
GitBook 地址:https://jiqizhixin.gitbook.io/artificial-intelligence-terminology-database/
划重点:「AITD」Version 3.0「专项领域」机器学习篇完整内容在本文文末收录。
「AITD」Version 3.0 更新了什么?
1、第三版术语库发布,包含了 2094 个术语
「AITD」Version 3.0 相较于第一版的 500 词、第二版的 755 词,在规模上扩大了不少。术语库第三版包含了 2094 个专业术语。
2、增加了领域专题 Section,第一个 Section 为机器学习(Machine Learning)篇,包含了 726 个术语
在周志华教授、李航博士、邱锡鹏教授、李沐博士、Aston Zhang 博士指导和帮助下「AITD」项目团队完成了第一个「专项领域」篇 ——「机器学习」篇,并收录在 Version 3.0 的更新中。在后续的版本更新中,机器之心将搜集自权威教科书、论文等具有公信力的资料源中的术语表进行校验汇总,并从中筛选出一些具有争议、没有翻译等情况的术语给到领域专家进行集中讨论以确认翻译、统一翻译。
3、优化了术语的组织形式,每一个术语都会有如下的字段帮助大家更全面地理解
索引编号:考虑到讨论交流、数据库维护的效率,我们将使用「Artificial-Intelligence-Terminology-Database」的缩写 AITD 并加上数字作为术语的编号,根据当前术语库的首字母顺序进行标注,索引编号将从 AITD-00000 开始;
英文术语:英文术语;
中文翻译:该英文术语目前推荐的中文翻译;
常用缩写:该英文术语常用的缩写形式;
来源 & 扩展:来源 & 扩展是对该术语的注解,在前两版中的内容为机器之心往期的相关文章。我们希望不仅能提供相对应的术语,同时还希望能为读者提供每一个术语的来源和概念上的扩展。从第三版起,我们将关联更多的资源内容,包括但不限于教科书、论文等来源。但由于这一部分工作量较大,我们将与读者共同推进这一部分扩展的进程,进一步提升术语信度。
备注:关于该术语的一些注解。
4、增加了知识共享许可证
本作品将采用知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议(CC BY-NC-SA 4.0)进行许可。同时,我们响应了 GitHub 仓库中网友的建议,增加了 GitBook 的链接,方便大家查阅。
「AITD」后续有什么计划?
本项目中所有英文专业术语对照的中文都来自机器之心编译的文章和系列机器学习教科书(如周志华教授的《机器学习》、李航博士的《统计学习方法》、邱锡鹏教授的《神经网络与深度学习》、李沐博士的《动手学深度学习》、李宏毅教授的《机器学习方法》和 Ian Goodfellow 的《深度学习》中译版等),我们力求在提供准确翻译的同时保留最常用的形式。同时,为了保证术语翻译的准确性,我们将此项目向读者开源,并希望能与读者共同迭代术语的准确度。
除了日常编译工作积累之外,我们将逐专项领域基于权威教科书及文献,联合领域专家进一步扩展并完善本仓库,为社区提供具有统一性的 AI 及相关领域的中英术语翻译对照参考。在接下来的一段时间里,机器之心将从三个方面持续完善术语的收录和扩展阅读的构建:
① 继续完善基础术语的构建,即通过权威教科书或其它有公信力的资料抽取常见术语;
② 续性地把编译论文或其他资料中所出现的非常见术语更新到术语库中;
③ 联合更多专项领域专家,构建专项领域术语库。
自「AITD」Version 3.0 起,机器之心「AITD」项目团队将基于以下标准开展「专项领域」术语库工作:
1)基于权威教科书、论文等具有公信力的资料源提取词汇。
2)邀请对应领域专家进行专业指导
致谢!
衷心感谢以下专家参与了包含但不限于术语提供、校对、翻译研讨等工作,为该项目扩展了专项领域术语收录的覆盖度、提升了术语中文翻译用法的准确性、专业性及公信力,感谢老师们的辛勤贡献(排名以 A~Z 进行排序):
1. Aston Zhang 博士,《动手学深度学习》作者
2. 李航博士,《统计学习方法》作者
3. 李沐博士,《动手学深度学习》作者
4. 邱锡鹏教授,《神经网络与深度学习》作者
5. 周志华教授,《机器学习》作者
读者及用户的反馈意见和更新建议将贯穿整个阶段,我们也将在项目致谢页中展示对该项目起积极作用的读者及用户。如果您在使用术语库的过程中若发现了存在的错误、或是想要扩展术语库的内容、讨论特定术语的翻译等等非常欢迎大家提 Issue 与我们以及各位读者进行讨论(请附带来源,以便我们能更客观地更新词汇)。同时也非常欢迎读者们进行 Fork、提 Pull Request,共同加强术语的编译质量以及扩充术语库的规模。
参与「AITD」!
我们邀请更多感兴趣一起参与「AITD」项目的小伙伴通过加入「机器之心分析师网络」加入到「AITD」项目工作中来。除了旨在构建 AI 领域术语库的「Artificial-Intelligence-Terminology-Database」,机器之心目前还有「开放知识库」 GitHub 项目,例如 ——
「ML-Tutorial-Experiment」算法教程与实现项目目前共获得 2400+ Star。它目前有五篇详细的教程文章,即 CNN 的实现、经典 GAN 的推导实现、 CapsNet 的解读、LSTM 等语言建模和基于 Transformer 的神经机器翻译实现。我们希望能提供高质量和能实现的技术文章,在这些文章中,我们所使用的代码块或整体实现都是我们预先测试的,且提供的 Jupyter Notebook 都带有代码注释,非常适合初学者随文章阅读。
项目地址:https://github.com/jiqizhixin/ML-Tutorial-Experiment
「SyncedLeg2018」 机器之腿项目是源于机器之心 2018 年暑期实习生 Hackathon 的输出成果,可基于微信历史文章与相应的流量数据、分析统计出热点词汇。
项目地址:https://github.com/jiqizhixin/SyncedLeg2018
加入机器之心分析师网络,在参与机器之心发起的人工智能及相关技术领域的「开放知识库」项目之外,还将有机会受邀作为特约分析师
现场参与国内外学术、学术及产业盛会,现场观察。
参与热点技术解读、指标分析、性能评测等专业性技术分析项目。
参与热点事件解读、产业前景分析等专业性产业分析项目。
在过去的五年里数百位兼职分析师们利用自己的工作、学习之余的闲暇时间,与机器之心的全职分析师们共同构建 AI 知识库、维护开源项目、撰写技术分析、开展专业调研、联合发布报告等等。参与机器之心全球开放项目的分析师大部分来自于内一流的研究机构及一流人工智能企业,其中包括卡耐基梅隆大学,滑铁卢大学,多伦多大学,加州大学洛杉矶分校,清华大学等等。查看项目链接,申请加入「机器之心分析师网络」。
「AITD」Version 3.0:「机器学习」专项领域术语中英对照表
图片
© THE END
转载请联系本公众号获得授权