特斯拉自动驾驶到底怎么样？｜无人驾驶特辑 4

钛媒体APP

2021-07-24 08:30钛媒体APP官方账号

【「无人车特辑」栏目由播客《硅谷101》与钛媒体联合推出：盘点美国L4级无人车巨头们的策略；讨论争议中前进的视觉派Tesla；访谈中国无人车创始团队。钛媒体App为文字首发媒体。】

特斯拉引发的视觉派与激光雷达之争：选择它不是因为简单，而是因为难？

采访｜泓君，文字｜王晶

在电动车领域，特斯拉是全球市值最高的车企。它吸引大众关注的另一点是，是它的「自动驾驶技术」。

在2021年计算机视觉和模式识别会议上，特斯拉还公布了其超级计算机Dojo，超强的算力、大规模的数据收集以及雄厚的资金，背后是马斯克对自动驾驶的野心，他曾宣称，要在2020年实现「L5 完全自动驾驶」。

根据 SAE 对自动驾驶级别的划分，L5级别的自动驾驶意味着，车辆可以在任何情况下进行驾驶，车内乘客无需参与任何驾驶行为。当前无论是从技术还是从公认的分级标准来看，要达到L5级别的自动驾驶还有很长的路，特斯拉目前的自动驾驶只能算是L2.5。

与马斯克大肆宣传自动驾驶功能相悖的是，特斯拉频频发生的自动驾驶交通事故，也引发了对自动驾驶安全性以及视觉派与激光雷达派的争论。许多车企为了保障安全，选择了在传感器上做“加法”，车辆不仅搭载多种雷达，还有视觉派的摄像头。但作为视觉派坚定的支持者，马斯克却选择了做“减法”，甚至去掉了毫米波雷达。

人都会依靠自己的经验形成路径依赖。激光雷达与视觉派相争已久，马斯克是否选择了一条更难的路？

本期嘉宾 | 齐蕾，前上汽资本硅谷投资总监；刘冰雁，Kargo软件主管

接下来我们会出一系列的关于自动驾驶的节目，来盘点美国巨头Waymo、Cruise、Amazon、Tesla、Uber这些公司的无人车策略，也会有更多中国的无人车创始团队加入到我们的访谈中。我们一起看看，这个市场上最聪明的人和钱，到底在赌一个怎样的未来。

你将会听到：

【01:15】特斯拉不是无人驾驶，而是L2.5的辅助驾驶

【03:29】用户体验特斯拉：进步与恐慌

【10:03】如何看待特斯拉去掉了毫米波雷达？

【14:50】路径之争：视觉派与激光雷达之争是伪问题？

【24:04】定义不明，自动驾驶的分级界限有待更新

【26:30】特斯拉自动驾驶更安全吗？

【37:24】无论是视觉还是激光雷达，实现全无人驾驶很遥远

【44:30】特斯拉视觉识别上的进步：从2D到3D

【46:30】人工智能的黑盒子

【50:23】路线之争：我们选择它，不是因为简单，而是因为难

01 特斯拉辅助驾驶的进步与体验

《硅谷101》：我们之前讨论Waymo、Cruise的无人驾驶，都是完全无人驾驶L4甚至是L5级的无人驾驶，准确来说特斯拉应该不算无人驾驶而是辅助驾驶。

齐蕾：现在很多车都有ADAS（Advanced driver-assistance systems）高级辅助驾驶系统，可以进行跟车，保持在两条线之间行驶，跟着线稍微拐弯。现在特斯拉的所有功能，都可以归为ADAS。

《硅谷101》：冰雁是特斯拉的老用户，也见证了特斯拉这几年自动驾驶的进步，可以聊聊你刚用特斯拉和现在使用感受上的区别？

刘冰雁：我最开始拿到车应该是2018年前后，近些年特斯拉进步很明显。最开始如果遇到开山路比较多弯，它就会放弃，但现在基本上到处都可以开了，包括高速和一些非高速地方。内测或半公开测试的一些版本基本上从家到公司都不需要接管，目前用户用到的版本，基本上是辅助驾驶。

现在通用的 Super Cruise也做得非常好，手都不用碰，特斯拉是如果你30秒手不碰方向盘，它一定会提醒你，之后就会让你靠边停车，要全权接管。

《硅谷101》：你是觉得现在特斯拉在上下高速方面已经比较顺畅。

刘冰雁：一方面是上下高速，一方面是在高速之间切换，有一些路它会告诉你这个转盘转不过去，你就需要接手，但是在能处理的范围内，它还是处理得相当不错的。

所以如果把它当作自动驾驶，是很危险的。但如果把它当做很好的辅助驾驶，对我来说，是真的离不开的东西。

我每天开车上班大概40分钟左右，如果没有这个功能的话，开车很累，但有了辅助驾驶，基本上全程我只要看路就可以，不需要随时准备反应。这条路我每天都在开，熟的路、熟的车、熟的软件，除非前面突然有辆车停下来，否则基本上都做得很好。

齐蕾：会有担心吗？特斯拉好像在辨别特殊车型上，如校车或大水泥车，比较差。

刘冰雁：对，这确实要注意，但特斯拉自动驾驶技术和其他公司不一样，我认为是UI上的区别，这是一个用户体验的问题，技术上的差距未必那么大。

在很长一段时间里，很多技术是靠毫米波雷达完成，很多家都做得不错，但他们没法告诉你，是否有看到前面车辆，所以前面出现车时，你一定会害怕。

特斯拉相较于传统汽车巨大的一个升级是它有个大屏幕，可以提供很多交互信息，如果能看到前面车辆，出现问题的可能性就小，即使技术差别不大，但这样的交互模式还是确实感觉好用了很多。

图 | 特斯拉车辆行驶的可视化界面

《硅谷101》：不管在大屏幕上有没有看到车，驾驶员还是要保持很高的专注力，观察自动驾驶开得如何。

刘冰雁：这实际上是另一个问题，激光雷达派还是视觉派的核心区别，是在Reception上。从这个角度来说，除非是软件写得太差，只要看到了，一般不会说看见了还撞上去。

02 去掉毫米波雷达

《硅谷101》：在5月份的时候，特斯拉把毫米波雷达去掉了，你们怎么看这件事情？

齐蕾：特斯拉现在有四款车，量产车拿掉了，剩下两款还是有的。

刘冰雁：之前认为有一种可能性是供货，很有可能会是这样的原因：对于小规模的车，他照样能供得上，但是对于大规模这个量产的话，为了不影响交货，他把毫米波雷达去掉了。

这个事情发生之后，又有几个消息可以对比看，第一是当时最开始特斯拉的所谓的Autopilot，应该是L1.5，是Mobileye提供的技术，后来被英特尔收购了Mobileye这家公司的技术，于是特斯拉跟Mobileye分道扬镳。

那时候特斯拉的自动驾驶技术，退步了相当多，我刚拿到车的时候，应该是退步还没追上的时候，有一些技术属于老车反而更好的。

《硅谷101》：为什么会退步？

刘冰雁：因为Mobileye专注做这一方面相当长时间，也有一些自己的专利。

《硅谷101》：退步是因为特斯拉和Mobileye掰了？

刘冰雁：这是很久以前的事儿了。但是一两年之内特斯拉就完全追上了，并不断有新功能出现。

这个角度来说，毫米波又出现非常类似的事情。刚开始这个事情发生的时候，车交货之后，他会发现定速巡航不能超过75英里，还有一些雨天夜晚会出现一些问题，但是最近的更新，已经把这些东西弥补的差不多了，这些事情上做的还是挺快。

《硅谷101》：毫米波雷达的作用是什么，它可以看多远？

齐蕾：应该是二三十米。

《硅谷101》：激光雷达是远的，毫米波雷达是近的，如果开高速的话主要是靠激光雷达。

图 | 特斯拉自动辅助驾驶

刘冰雁：很多在之前出现的幽灵刹车事件，实际上是毫米波雷达造成的。往往出现在头顶上有个桥，之前认为是立交桥的影子会对视觉造成影响，后来更多的情况，他们是说立交桥本身对毫米波雷达产生了影响。

《硅谷101》：如果是这种情况，不管白天还是晚上，如果遇到立交桥的话，特斯拉的车在自动驾驶的过程中可能都会出现卡顿，或者急刹车。我在特斯拉论坛上看过的报告，晚上出现这种情况比较多，所以大家猜测是因为立交桥的影子。

刘冰雁：难道不是应该说，晚上发生的情况比较多，正是因为影子相对不强。因为当白天视觉比较确定的时候，视觉可能会占上风，这里面就涉及到传感器融合技术。

我们最终是在试图认识和理解这个世界，这属于测量问题。这个世界上不存在可测量的真值，因为测到的东西一定是不准的，所以在有一定偏差的情况下，几个偏差之间怎样融合？而一般意义上的传感器融合，是当它们的偏差在范围重合的情况下，可以进行融合的。

我们现在讨论的这种情况，可能出现的情况是，两个测量密度已经低到了没有融合的机会了，可能存在的问题是视觉如果没有看到这个立交桥，而雷达看到了这个立交桥，这是一个非常夸张的事情。前面突然出现一堵墙，这东西要怎么处理，两边最后会出现打架。

这就是为什么马斯克说，它这个东西在融合过程中反而会造成问题。如果视觉和毫米波雷达不一致的情况下，一般是毫米波雷达错了，这样的话干嘛还留着它。这个说法不是内部人士不好评判，但是从现在他们的车做到的效果来看，还真是有一些可能性。

齐蕾：这是你的一个推论。另外一个事实是，毫米波雷达有一个缺陷，当周围的毫米波雷达都在作用时，会有互相干扰的情况，激光雷达没有。

我不是技术，但是我周围所有做毫米波雷达的人，最关注的核心问题是当路上有100辆车，每个人都在开自动驾驶和毫米波雷达时，由于互相干扰，可能会有很严重的偏差。

《硅谷101》：这样说如果L4或L5自动驾驶成规模时，岂不是也会有互相干扰的问题。

齐蕾：对，这就是视觉派的合理之处，另外就是考虑怎么解决现在的短板。

因为我之前看过很多做新型毫米波雷达，会把频段变成不同的频段，可以去更小的避免互相干扰。

刘冰雁：他们可以用一些信息加载之类的办法，让它知道这是别人的车，或者通过别的技术来跳频，这是无线电中已经有成熟的技术了。现在是怎么在这样的设备中，把以前作为雷达技术或者探测的技术，变为用无线电类似的技术进行优化。

齐蕾：我觉得特斯拉还有很厉害的一点是，第一个提出fleet learning（车队学习网络）、neural network learning（神经网络学习）。

靠着所有特斯拉的车，去共享学习到的东西，只要我的车铺的够多，按道理来讲视觉会更精准，比如前两辆车看到了前面大卡车，可以给我的车预警一下，让我知道前面有个大卡车。如果真的能实现这一点，是很厉害的。

刘冰雁：我理解的fleet learning，应该不会试图用前两辆车的信号去做这件事。理想状态所有车都互联互通，信任对方的信息，相当于500米之外有个事情，大家一起减速，这非常美好。但在这个世界上，几乎永远不可能成功，因为总是存在作恶者的。

你要相信绝大部分人都是好人，但是总有坏人。因为我有朋友研究人工智能安全相关的内容，里面确实存在很多非常恐怖的问题。

特斯拉最大的优势是，它能落地；虽然它的水平跟Waymo有很大的差异，但是它有很多的车队数据，从这方面讲，它是有很大的可能性突破自动驾驶的。

齐蕾：还有它积累的数据是真实的发生在路上的数据，而不是在云里跑出来的模拟数据。

03 激光雷达派还是视觉派？

《硅谷101》：关于特斯拉，一直有一个讨论很热的问题，就是大家怎么看视觉派跟激光雷达派？

刘冰雁：相对于激光雷达来说，视觉的数据量级小很多。另一个好处是，相对于激光雷达，视觉可传输的数据量级要小很多，激光雷达即使有这样的规模，对于目前的网络条件来说，也没有办法收集这样的数据。

首先特斯拉可以有百万辆级的车，另一方面对于这些车的摄像头数据，目前有非常成熟的摄像头视频压缩技术，本身传输的话数据上量级要小很多。

《硅谷101》：视频有很成熟的数据压缩技术，我采访过的公司，在07-08年做视频在线教育的时候，没有办法做，因为他视频压缩技术达不到，网上卡，后来等视频技术成熟了，一批在线教育公司就做出来了。无人驾驶的出现，就是依赖于激光雷达能看的更远了，激光雷达行业还有待发展，因为视频成熟的压缩技术也经历了很多年。

刘冰雁：对，视频技术属于推动互联网发展的核心技术之一，所以确实发展会好一些。另外，做一个激光雷达或者L4-L5技术需要的算力，是做L2-L3技术或者做视觉的算力相比，是好几个量级上的差别。

我道听途说的，现在每一辆Waymo、Cruise这些厂商的自动驾驶车里，他们都相当于还是背着一个双路至强（Intel CPU）加8台GPU，市面上买的价钱至少要大概1万到2万美元，更不说存储成本。之前每天换硬盘，现在可能一次背了20块硬盘，隔几天换一次。

齐蕾：所以现在很多自动驾驶公司在做小巴，因为小巴的成本划得来，空间也大，可以塞计算设备进去，另外载的人多，里程数更高，算下来会划算很多。

同时我们期待，无论是英特还是Nvidia，尤其是Nvidia，得把这个事儿给做出来，一致去搞自动驾驶的芯片；如果芯片成本能降下起来，大小能变小，也是一个里程碑。

图 | 自动驾驶系统

《硅谷101》：激光雷达的数据，比如像Waymo，是他们晚上回去，车都歇着的时候传输吗？

齐蕾：他们之前在做的时候，唯一的办法是，晚上把硬盘拿了出来，再拿到他们的机房，然后进行传输。5G到来会带来一些方便，但是它的数据量确实是比较大的。

刘冰雁：我觉得激光派和视觉派的争论可能是个伪问题，L5技术，现在看来还有点遥远。

齐蕾：所谓L5本身技术含量是非常高的，我们可能不会去定义是L5、L4还是L3，而是说真的应用起来应该是什么样的感觉。

刘冰雁：非常有道理，我确实一直觉得SAE（美国汽车工程师协会）的这套分级，现在看来值得推敲。

《硅谷101》：大家说特斯拉现在是L2的技术，L2和L3的区别在哪里？

刘冰雁：简单的说法是这样的：L2是人在开车；L3是车在开车，但人要负责；L4是车在开车，但车负责，也就是说L4是人不需要接管，L3人还需要接管。

齐蕾：L2和3其实界限没有那么大，就是程度的问题，比如手放在方向盘上面，L3是你可能可以停一下，但要回来一下，如果说离开30秒可以算2.5。

图 | 自动驾驶分级

刘冰雁：绝大多数定速巡航或自动跟车都可以算L2，但特斯拉应该算是L2.5，到L3好像又没有到，分级其实是纯从产品的角度来定义，而不是从技术路线角度定义的。

从技术路线角度，你会发现L3到L4非常难，甚至可以说L4到L5都没有L3到L4难，现在的Cruise、Waymo也到不了完全L4，就是不需要人接管，这是很难做到的事情。一旦人可以不接管了，把它扩展到在一个城市都能用，在另一个城市也能用，可能反而比从L3到L4更容易。

齐蕾：回到刚才说的从一个城市到另一个城市，我觉得难度非常大，可能视觉派还不太一样，激光雷达的是必须得扫地图。

刘冰雁：激光雷达是依赖于高精地图的，没有地图的话，就不能这么去运作，特斯拉虽然很多地方不靠谱，但做视觉绝大部分体验还是很好的。

齐蕾：从用户体验和商业角度来讲，特斯拉的体验肯定是更好的。但是从一个车厂的安全和责任的角度来讲，大家愿意选择激光雷达，是因为认为激光雷达更安全更负责。

我自己对视觉不安的一点是，我很担心在它遇到一个没有见过的情况，要怎么做决定。

刘冰雁：激光雷达不会有同样的问题吗？它也有没有见过的东西。

齐蕾：它有，但至少它可以判断前面是一组障碍物，但对于视觉来讲，它不一定是障碍物，有可能那个东西很小，但可能会导致很大的事故。

刘冰雁：我之前在Oculus做的是，基于视觉建图与定位，用视觉，和一些非常简单的加速度、陀螺仪这样的传感器，这样是可以进行对深度和物体有相当不错的感知，相当于对与定位的感知。

因为双目视觉可以做深度，在运动过程中，即使不用传播视觉也可以做深度，更进一步就是人眼看很多事情也可以知道它大概的位置的深度，那么机器不见得会做得比人差，所以说深度感知，也就是说，知道前面到底是不是一堵墙，并不是那么难处理。

相反，激光雷达遇到反光或雪花，并不是那么准。

图 | 激光雷达

齐蕾：对，雨天，激光雷达会有很多问题。

刘冰雁：视觉上也可以做很多深度，这些不依赖于是否见过这个场景。

回到做深度定位这个问题上，我们找的是，连字母都算不上的小东西。你看到有两个非常小的点，原来离得很近，后来突然离得很远，就说明这个东西离你很近了。它并不依赖于认出这个东西本身，只需要知道一些从图像处理、甚至光学上几乎对人眼和人脑来说不可识别的一些东西，就可以提供非常好的深度的认知。

齐蕾：会不会出现的是一个活物，比如一个正在弯腰捡球的小孩，系统会误以为是个垃圾桶？

刘冰雁：不管是垃圾桶还是小孩都是不能撞的。

齐蕾：有意思的一点是，马斯克是坚定的视觉派，连毫米波雷达都可以拿掉，只相信视觉，但激光派就是，我们都上，我不仅有激光雷达，还有毫米波雷达和视觉。

《硅谷101》：激光雷达和视觉派的一个差异在于，不管激光雷达是否比人开车安全，对激光雷达派来说，要做的是降低总体事故率，不仅要比人更安全，还要让车的事故率降到最低，安全性提升到最高；而不是说达到了和人差不多的水准就可以了，他们不是这个标准。

刘冰雁：我们仔细深究的话，车一定比人自己更安全，这是一个简单的概率问题，人不是100%安全，车也不是100%安全，但只要不同时犯错，我们就是安全的。

但我们讨论不同传感器融合时，就不是直接这样的关系，不是说只要激光雷达看到了，或者视觉看到了，就一定不会出事，看到不代表不会出事，也可能看到了假的东西，于是做了错误的躲避，造成更多失误。

从这个角度来说，更多传感器不一定代表更好的精度，因为这是几个不同的传感器，它们之间没有典型的可以用统计的方法进行融合。

齐蕾：就是回到了传感器融合权重的问题。可能高速上传感器的权重更偏向激光雷达，在城区的话就更偏向视觉。

从车厂商业化角度来讲，之所以选择多传感器融合，是要两倍三倍的保险，这也是为什么行业里大部分车厂的商业化路径会选择多重保险。

另外，现在很多人想解决的问题是在高速公路上怎么可以看得更远，因为摄像头没有办法看到更远，这是个巨大的问题。如果我是卡车，在无法看到更远、制动又很慢的情况下，就会出事。

《硅谷101》：特斯拉的终极目标是不是要去成为Waymo的竞争对手？

刘冰雁：我的核心观点是，L5非常遥远，要达到L5技术，需要的人工智能技术相对现有技术还有一个代差，不是现在可以解决的一个问题。等到那个时间，当视觉比激光雷达有了更好的感知能力，我觉得不是问题。

L5在时间线上并不是非常近的，我一定程度同意马斯克的一个观点，激光雷达是作弊，相当于拿了一张开卷考试，拿了一张地图在做驾驶问题。他做的事，就是模仿人，人用肉眼可以开车，那么车也可以。激光雷达并没有提供比视觉在远期上来看，更多的东西。

04 争议安全性

《硅谷101》：上次我们讨论的一个结论是，自动驾驶更安全，但人类更聪明，如果这句话套用到特斯拉这个案例上，其实就不成立了。

刘冰雁：我不同意，在安全这个问题上，特斯拉就是一个新闻吸引器，不管是正面的负面的新闻都往它头上放。

《硅谷101》：所以你认为特斯拉的自动驾驶更安全？这是不是建立在正确使用的方法上？

刘冰雁：Yosemite有个说法是，造不出完美的防熊箱，最愚蠢的人和最聪明的熊之间的交集比人们想象的大得多，就是说总有人犯傻，总有人不要命。技术并不是核心问题，没有什么安全措施，防得住犯傻的人。

《硅谷101》：所以你的说法还是建立在，我们要普及技术，要在正确使用的情况下评判它是否安全。但问题在于，当一个人开车时，如果使用自动辅助驾驶系统，但要还有集中注意力观察，这是很难的，这是人性的问题。

刘冰雁：我非常同意，我想提两个点，第一，安全气囊在错误使用的情况下也非常危险；第二，我的体验是，之前开车4小时去滑雪，到场就已经很累不想滑了，但后来开特斯拉就觉得开车根本不是问题。

齐蕾：他的经历我也有，我开的不是特斯拉，是英菲尼迪。因为以前我自己开去洛杉矶，五六个小时很累，中间每两三个小时就要休息一次。但自从开了可以定速巡航的车，接触了更好的产品，就不会再退回到没有这个功能的产品。

这个体验可能在特斯拉身上更重。一旦体验了这个功能，我再也不会去买没有这个功能的车了。

《硅谷101》：所以你下一辆车打算买特斯拉了。

图 | 特斯拉的自动辅助驾驶

齐蕾：我有对电动车的里程焦虑，我开到中间的时候，可能要绕到一个根本不想去的地方充电，坐在里面坐半个小时。另外从消费者的角度来讲，我在新闻上天天看特斯拉出事儿，我的信任感没那么高。

刘冰雁：我想说的恰恰是另一方面的情况，特斯拉救了命是大家是看不到的新闻。

齐蕾：就像刚刚说的，人总是有特别傻，让你不理解的人，比如之前在北湾，有两个开特斯拉的人直接撞到了树上导致死亡，是因为他们俩都坐在后排。

也正是因为特斯拉如此高调宣传自动驾驶，导致很多人要去试试。

刘冰雁：特斯拉在全自动驾驶上的宣传，到后来已经到了笑话的程度了。马斯克说2016年底的时候要Coast to Coast全程是吧？现在已经这么多年过去了对吧？马斯克前两天还说下周就要发布。

齐蕾：他老说这些话，他不是明天就要去火星了吗？

刘冰雁：这些都是玩笑了，但我们开车中都会焦虑会走神，特斯拉可以在你走神的时候帮一把。如果你走神的时候没有人帮一把的话，很可能就真的出事了。

齐蕾：我有很大的两个感受，一是特斯拉用户非常热爱特斯拉，是发自内心的热爱。二是在我对车有了信任和依赖感时，作为司机我是不是会更加放松，导致我不愿意再关注在开车上，而这个车可能在一两年还没有达到质的飞跃的时候，我自己本身的心态却达到质的飞跃。

特斯拉有做什么事情让用户更警醒吗？

刘冰雁：如果手不在方向盘，它会很快各种提醒。

《硅谷101》：其实最开始马斯克谈自动驾驶的时候，大家不会去揪着马斯克问是在说L2的自动驾驶还是L4的，就都觉得是一个可以完全撒手的自动驾驶。

直到特斯拉自动驾驶发布好几年后，出了很多事故，他才说这只是辅助驾驶，大家开车时手得扶着方向盘，用户才意识到特斯拉并不是完全自动驾驶。我们之前说特斯拉不是技术问题，其实是一个宣传问题，这点非常重要。

刘冰雁：说到技术的发展，可以再往下延伸一点，科技最终是为了什么？不管是自动驾驶技术还是别的技术，除了科学家们的好奇心之外，我觉得更多的是为了拯救生命。Waymo是最先提出不能信任人，不做L3系统，只做L4L5的系统。

《硅谷101》：Waymo提出这个，是因为他们在做自动驾驶研发中，安全员在路测过程中发现，如果不开车，还要专注看前面有没有障碍，随时准备接管，这是一件反人性的事情。背景是在自动驾驶很不成熟，需要随时接管的情况下。

刘冰雁：在这个事情上我不同意他们的这种观点。实际上他们做的事情，可以说是为了自己手上不沾血，他们在杀掉很多沉默的人。

他们相当于是说，我的自动驾驶技术没有杀掉任何一个人；但是推迟了一个足够好的自动驾驶技术，广泛地进入市场中，实际上已经杀掉了很多人。

《硅谷101》：你认为即使在自动驾驶不成熟的情况下，也是比人开车更安全的？

刘冰雁：我想说的是，在人和自动驾驶一起开车的情况下，它一定比人开车更安全。

《硅谷101》：一起开车指的是，人还是集中注意力。

齐蕾：理论来讲可能是成立的，但对于个体来讲，你永远都不知道现实是什么样的，因为人的变化因素太大了。

刘冰雁：自动驾驶比人开的好应该没错，我就肯定没自动驾驶开的好。

齐蕾：人肯定是更相信自己，和自己比较熟悉的东西，以及自己过去的经历和判断。机器会做决定，但可能会出错，因为我们不知道里面的编码是什么，是谁在编码，也不知道机器是否纯洁，还是被黑客黑过。

05 特斯拉公布超算Dojo，未来模型训练会更快

《硅谷101》：特斯拉在视觉的方案上，有哪些技术方向的升级与进步？

刘冰雁：随着超级计算机Dojo的公布，一个比较大的改变是从基于2D的识别变为3D，在运动状态下的识别，他们最终去分析的是3D空间中每辆车的朝向这样的信息，而不是基于之前对二维图片的识别。

还有很多要发展的地方，比如需要对三维空间单目或双目的物体姿态的估计，这确实也是非常值得做的方向。特斯拉最大的优势是，有钱又有数据，我们花钱给它当试驾员，相比Waymo的话，它的数据量级是海量的。

《硅谷101》：特斯拉披露了超级计算机Dojo，它的算力据说达到了全球第五，马斯克还说想要达到超算能力的百亿亿次浮点，简单解释一下，具体的用途是什么？

刘冰雁：它可以用来做人工智能的模型训练。大家是否还记得Open AI做的的语言模型GPT-3？它当时花了1600万美元专门训练这个模型，让这个模型从一片混沌到能够知道一些事。

Dojo也是用来做训练这个过程的，让一个什么也做不了的模型，变成一个能认出猫，认出狗，认出人，认出车的一个模型。

《硅谷101》：可以理解为它如果用于视觉识别，视觉识别的效率会提升得更快，因为之前的算力达不到？

刘冰雁：对，可能以前我训练一个这样的模型需要几年的时间，在真实世界中这个时间是不可接受的。但如果加速100倍，一个电脑比它快100倍，几年的事情可能就变成了几天几周，就是可被实施的事情。

齐蕾：它就是算得更快，找东西的速度更快，是吗？

刘冰雁：差不多是这个意思，模型的规模决定了它分辨不同东西的能力，包括它的分辨精确度，规模越大越难训练。

齐蕾：会不会有一个问题，我们并不知道模型是通过什么样的方式算出答案的，它就是很不安全，是一个黑盒子，对于人来讲它已经不可控了。

刘冰雁：我们现在整个人工智能行业，不管是激光派还是视觉派，我们所依赖的都是一个黑盒子一样的东西。

往往都是实践先行然后理论跟上。现在也有一些理论物理学家在这方面进行一些研究，用一些更好的方式去理解这样的模型。现有的数学工具，是没有办法理解这样一些非线性系统的，但理论物理中有一些工具能进行大规模非线性理解。所以现在有很多理论物理学家在进行这方面的研究，用更好的方式来理解模型。以后可能不是黑盒，但目前几乎就是黑盒。

《硅谷101》：我们刚刚说了很多视觉派的优点，但即使特斯拉的人出去创业了，也是选择做激光雷达派，比如说像RoadStar之前也做视觉派，后来转向了激光雷达派，Auto X做摄像头解决方案的，最后也上激光雷达了，所有一开始就向着L4和L5的自动驾驶公司，最后不约而同走向了这条路。

刘冰雁：有这样一条简单的路，并且成本越来越低，干嘛不走。当然还有非常有名的一句话，我们选择它不是因为简单，而是因为难，这就是另外的一个故事了。

《硅谷101》是一档起源于硅谷的科技播客，分享最前沿的技术创新与商业趋势，大家也可以在苹果、小宇宙、喜马拉雅、蜻蜓FM、荔枝等主流音频渠道或者泛用性客户端订阅《硅谷101》的音频节目。

查看原图 168K