十年烧了千亿美元,无人车依然无路可走丨TECH TUESDAY

更新时间:2022-11-02 14:05:39作者:智慧百科

十年烧了千亿美元,无人车依然无路可走丨TECH TUESDAY



“我们可能只是拥有了一个没有常识、十分脆弱的系统”。

文丨贺乾明

编辑丨黄俊杰

2014 年底,Uber 董事会召开,重要议题需要讨论:优步与滴滴的大战刚刚开始,每月超过 5 亿元的补贴投向中国,许多股东对此感到怀疑。

会刚开始,代表大投资方 Google 的董事大卫·德拉蒙德 (David Drummond) 要求回避,他直截了当:Google 将以无人驾驶汽车进入网约车市场。竞争很快会变成现实,他已经不适合再参加讨论。

八年之后,网约车行业大起大落,烧掉数百亿美元,便利了人们的生活、留下无数精彩的商战故事。而无人驾驶投入更大。

按照麦肯锡去年的统计,公司、风险资本自 2010 年以来在无人驾驶相关技术的投入超过 1000 亿美元。但无人车依然极不可靠。去年 Google(Waymo)的一辆测试无人出租车在路上遇到几个交通锥,就停了下来拒绝行驶。通用汽车的无人出租车因为没看懂路况、被撞。

无人驾驶最激进的鼓吹者、特斯拉首席执行官埃隆·马斯克(Elon Musk)现在承认低估了开发无人驾驶系统的难度。福特技术负责人道格·菲尔德(Doug Field)说,无人车是 “我们这个时代最困难的技术问题,比把人送上月球更难”。

大公司和资本市场已近绝望。福特、亚马逊、联邦快递各自关闭了无人驾驶项目,有的已经投入数十亿美元。上市的无人车公司,不论是研发无人出租车的、运营无人货车的、卖激光雷达的,市值与高峰期相比都跌掉 90%。Mobileye 情况好一些,因为它卖的产品还不是无人驾驶,主要是帮助司机减轻一些驾驶工作。

无人车认出路上的任何一样东西,都需要人看上万张画面

马斯克说过,人类开车就是用两个摄像头,加上生物神经网络。两只眼睛分辨率很不错,但看运动物体时也就 800 万像素左右;大脑厉害一些,但全速运转起来,功率也就 20W,不到英伟达上一代游戏显卡的 10%。

2012 年,加拿大多伦多大学的教授杰弗里·辛顿(Geoffrey Hinton)和学生们带来了 AlexNet 模型,证明计算机已经可以用简单模仿人脑的多层神经网络模型获得类似人的视觉认知:看过大量图片之后,计算机可以掌握不同物体的特征,识别出同类物体。自然,计算机也可以 “看懂” 路。“看懂” 之后,在城市里开车基本是在 2D 平面移动物体,毫无难度。

无人车认路的设备比人眼强得多。Google 目前的无人车安装了 29 个摄像头、百度 RT-6 用了 12 个摄像头。它们还额外配置了多个激光雷达、毫米波雷达、超声波雷达。

过去十年,科技公司一边组建了昂贵的专业团队研究算法,一边雇佣或外包数千、上万人的团队。每天 24 小时,南极以外的每个大洲,都有数以万计的人坐在格子间或家中用鼠标和键盘,把一张张图片中的所有物体圈出来,标注清它们是什么、处于什么状态,教无人车认路。

为了理解这事为什么做十年也不成,我试着从计算机的眼睛去看道路,当了几天无人驾驶数据标注员。

美国无人车数据标注平台 Remotasks 提供了丰富的需求。一个典型工作是标记夜间街道上的出租车。

标注也不是简单点一下,需要一个像素一个像素,沿着轮廓圈出来。多数情况,出租车在图片里并不显眼,我得把图片放大、慢慢画。如果出租车的一部分被其他车挡住,得脑补画出弧度。



在 Remotasks 上标注出租车的画面,红色圆圈是作者截图时加的。

一个人要对出租车有概念,看几遍就行了。无人车不行,摄像头收集来的图像,对它来说是一串代表色块的字符,只有反复看上万张有标签的图像,它才能总结规律,搞清楚色块怎么排列是出租车。

要是想让无人车更精确地认路,还得靠人把图像中每一个像素用不同的颜色标记好,区分出什么是天空、什么是树干、什么是树冠、什么是建筑、什么是车、什么是人、什么是可行驶的道路、什么是车道线等等。



Remotasks 里标注整张图像的场景,用不同的颜色区分行人、车辆、道路、树干、树冠、障碍物、车道线。

今年 4 月,特斯拉的自动驾驶辅助系统(Autopilot)把骑马的人识别成人和狗。显然特斯拉没有教过系统如何识别马。虽然无人驾驶系统也不会直接撞上狗,但它需要预判面前的物体会如何行动,再决定自己怎么开。这就意味着风险,马和狗行动的速度大不相同。



特斯拉的自动驾驶辅助系统把骑马的人识别成人和狗。来源:Curtis Biggs

标注无人车更依赖的激光雷达数据会麻烦许多,标注员面前是 360 度全景图,密集的白点一圈圈晕开,碰到物体时会聚在一堆,组成车或人的形状。标注员得用矩形框圈出画面中车或人的大小、高度、方向,标清楚它们是什么车或什么状态的人,给机器学习。

为了让无人车更安全,无人车公司提出了 “传感器融合” 的方法,即把激光雷达、摄像头等收集的数据结合在一起识别物体和周围的环境。



在 Remotasks 上标注激光雷达数据的场景,用立体框圈出汽车。正下方是不同的摄像头视角,右侧是标注的物体。

新方法传递到数据标注环节,代表着更多要求。标注员得配合不同视角的摄像头图像,校正激光雷达标注框,然后增加更多信息,方便算法做判断。比如框里是什么车?小汽车还是货车?车是否被遮挡?遮挡了多少?车的转向灯是否亮着?刹车灯是否亮着?尾灯是否亮着?等等。有些任务要备注清楚 20 多个不同的状态,操作手册都有 60 多页。

标注员拿到的激光雷达数据通常是 40 张连续的画面。不同的时刻道路上物体的状态并不一样,比如这一帧刹车灯亮了,另一帧不亮;这一帧遮挡 80%,另一帧不遮挡了,每一帧都需要反复确认,这些状态都得重新填一遍。

Remotasks 在官方教程中建议,为了避免出错,最好先标一个物体,跟着它过完四十帧,然后再回到第一帧标注另一个物体,一个个标完,然后再整体过一遍,查漏补缺。

为了提高效率,培训教程里专门有一个环节教标注员怎么用键盘上的快捷键加速标注,而不是鼠标点来点去。但标注激光雷达数据还是会消耗大量时间,40 张的数据通常需要 3~6 个小时。

专业人士也快不了。一位数据标注公司的技术人员自己试了试,一个下午四五个小时,也就标注 50 张。

季节、街道变一下,甚至测试车型变一下,不少工作得从头再来

深圳一家自动驾驶公司技术负责人刘峰(化名)已经研究 6 年无人驾驶,他告诉《晚点 LatePost》,一个无人车系统经过上万帧的数据训练,能应对成千上万个场景,通常就能平稳上路。

《晚点 LatePost》了解到,现在标注一帧激光雷达数据,平均成本约 10 元人民币。不只是数据标注本身花钱,保证标注正确也需要投入——你不能保证一个人的标注绝对准确。

解决办法是让多个人标注同一张图,让一个人重复标注一张图,只要结果不一样,就得重新做。人得标几万张图,无人车公司才能得到 1 万张可用的图。而且数据标注公司、客户都会有专门的人审查数据标注质量。

在众包平台 Remotasks 上,严格的审查更明显。每次标注结束后,系统会自动打分,如果低于 60,警告横幅就会出现在工作区域正上方,写着 “我们已经注意到你最近的工作质量很低,请仔细按要求完成,否则你可能就没法继续干了”。

加上审核环节投入的人力成本,用数万帧标注过的数据训练无人车系统,大约需要近百万人民币。不过这样的无人车只能应对有限的场景,比如路况简单的高速公路。

尽管无人车公司不会在单个场景无止境标注数据训练系统,识别准确率或处理能力到一个程度就会停下来。但无人车消耗资金的漫长过程才刚刚开始。

为了让无人车适应更多环境,无人车公司得花钱买车,装上激光雷达、摄像头等传感器,去真实的道路上测试,这本身就意味着成本——早期的无人车单辆仅硬件成本就超过 10 万美元。只靠一辆车采集数据远远不够。

行业普遍认为,研发大规模可用的无人车,至少需要百亿公里路测数据。这意味着 1 万辆装着激光雷达、计算芯片的车每天载着安全员,以 40~50 公里的时速开 10 个小时,连续开 10 年。

它们的任务主要是发现系统不能处理的场景,然后无人车公司自己或通过外包收集大量同类数据,交给人标注,给模型学习,又得花近百万元。这意味着,无人车想要应对成千上万个不同的场景,要在数据标注上花数十亿元。

多数无人车公司都开发了自动标注工具,以节省标注成本,提高效率。但这些工具不够准确,只能替代小部分人力。

和训练好的无人车一样,自动标注系统只能处理人类标注员反复标注过的场景或物体,而这些物体对提升一个无人驾驶系统的能力已经不太重要。如果无人车遇到的新物体或场景,还是需要大量的人标注、审核。

“多数客户不会完全结束数据标注,” 倍赛科技的人士说。“场景实在太多了,不同的地区,不同的天气,不同的环境都不一样。”

而且训练好的无人车系统,装到不同的车上或在不同城市行驶,效果会打折扣。加州车管局 2021 年无人车接管报告中,Waymo 的无人车遇到问题,需要安全员介入的情况比上一年多了四倍。

原因是 Waymo 调整了测试地点,不再在山景城测试,增加了旧金山测试的车辆,并且将测试的主力车型从克莱斯勒的 Pacifica 换成了捷豹 iPace。

旧金山的坡更多,于是摄像头看物体的角度变了。原先能认出来的物体现在可能就认不出来。

新车型也有影响。车身矮了 20 厘米,这意味着车身的摄像头、激光雷达看世界的高度降低 20 厘米,角度发生变化。

旧金山远不是什么复杂的大都市,市区面积只有 121 平方公里、常住人口不到 90 万——面积和人口不到北京朝阳区的 1/4。全球汽车品牌还有超过 300 个,车型更是数以千计。

想要让无人驾驶系统适应更多城市、更多车型,处理更多场景,得有更多测试,发现更多问题,收集更多数据,做更多标注,交给系统学习。

一位数据标注行业人士告诉《晚点 Late Post》,她了解到一家 2019 年成立的无人车公司,今年花在数据标注上的费用达到 1 亿人民币,接下来还会花更多,“无人车公司的估值跟数据挂钩,高质量数据越多,估值越高。”

看了 10 万遍的东西,也不能保证系统能正常反应

去年 5 月,Waymo 在凤凰城运营的无人出租车要右转时忽然停下,附近没车和行人,只有几个交通锥。

后排的乘客无能为力,只能等待救援。救援人员还在路上,无人车忽然动了起来,右转,没走多远又在交通锥旁停了下来。就在救援人员追上的时候,施工队把附近的交通锥取走,无人车又开走了。它没有恢复正常。过了一会儿,它又停在了交通锥旁,堵住车道。



Waymo 的无人出租车停在交通锥旁边,右下角的屏幕显示它识别出了交通锥。来源:JJRicks

道路上随处可见的交通锥,是无人车系统必须要学习识别的物体。无法准确识别交通锥曾是特斯拉自动驾驶辅助系统的弱点,出过多次事故。2019 年特斯拉在一次自动驾驶辅助系统升级时特别强调,可以准确识别交通锥。

Wyamo 的无人车认出了车旁的每一个交通锥,但没能作出像人类司机一样的反应。Waymo 没公布事故原因,只是说 “检测到异常情况”,将改进运营流程。

“可能他们也不清楚为什么会这样”,长期从事无人驾驶安全研究的加州大学尔湾分校助理教授陈齐(Alfred Chen)说。建立在人工智能技术上的无人驾驶系统是一个 “黑盒子”,没人能搞清楚它如何把一堆数据变成结果。人们能做的,是给它大量标注好的数据,让算法自己提炼规律,并依此处理新的数据。但工程师并不能看懂算法的逻辑。

这不是自动驾驶独有的问题,任何使用深度学习的应用都一样。只是人们不那么在意抖音的算法有时推给你推荐几个不感兴趣的视频,但人们非常在意一辆一吨多重的汽车失常。

无人驾驶系统相关的致死事故已经有一些。Uber 的无人车在测试时撞死行人。根据 Tesla Deaths 统计,全球至少有 15 个人的死亡与特斯拉的自动驾驶辅助系统有关。中国的汽车厂也有,蔚来、小鹏都出现过类似的死亡事件。

公司往往将问题归咎到人身上,比如安全员不认真看路,驾驶员不应该轻信所谓的 “无人驾驶系统”。但归根结底,还是目前的自动驾驶系统没看明白道路上的物体,需要人干预。

无人车可以针对特定的问题改进软件,但又得回到数据上。“不需要理解中间到底为什么出错,只要知道哪块做的不好,用大量的数据训练系统,让它回归到正常情况(Ground Truth)就 OK 了。” 刘峰说。

他举例,无人车系统预测其他人或车未来几秒的行动不准确没关系,只要有足够多高质量的数据训练,就可以有更好的效果。

以上还没算无人车被攻击的情况。2019 年,腾讯科恩实验室的研究人员在路上放了三张小纸片,一辆开着自动驾驶辅助系统的特斯拉 Model S 识别后突然变道。

加上激光雷达也不能解决问题。陈齐等人 2021 年的一项研究发现,经过特殊设计的表面坑坑洼洼的交通锥,可以骗过百度开源的无人驾驶系统 Apollo。模拟测试中,同时使用激光雷达和摄像头的 Apollo 能 100% 识别正常的交通锥,但面对特殊锥桶,识别率为 0。



左侧为 3D 打印的正常交通锥,右侧是经过特殊设计的交通锥。图片来自陈齐等人的论文(
https://arxiv.org/abs/2106.09249)。



模拟环境中 Apollo 系统可以识别正常交通锥,但无法识别特殊设计的交通锥。图片来自陈齐等人的论文。

对无人车的攻击也会以正常的情况出现。陈齐说,他们正在进行的一项研究发现,无人车旁边的车行驶路线稍微奇怪一点,一些无人车系统就很难正确预测它会怎么行动了。而预测周围车辆如何行驶是它规划行驶路径的前提。

无人车公司想了许多办法避免极端情况,最主要的是加装更多的传感器。Waymo 最新的无人车上有 5 颗激光雷达、6 颗毫米波雷达、29 个摄像头。2014 年,Google 高管觉得很快就能让无人出租车上路接客的时候,Waymo 的车只有 5 个激光雷达, 4 个毫米波雷达和 1 个摄像头。

更多传感器、更多数据,也意味着需要更多人力去标注图片,帮助机器理解每一个画面。这些还只是无人车平稳上路的前半截,它能够识别路上的所有物体,并搞清楚它们如何行动后,还要规划自己怎么开并付诸行动,一样有许多问题需要解决。

从无人车到机器人,未来需要更多劳动力

今年 9 月,图灵奖得主、计算机科学家杨立昆(Yann LeCun)接受时采访说,无人车公司一直过于乐观,觉得将数据扔进大型神经网络就能让它学到一切。事实上,“我们可能只是拥有一个没有常识、十分脆弱的系统”。

刘峰说,无人车行业普遍认为,如果行驶大量里程后,无人车没有出现安全问题,就会被认为是安全的。无人车不可能百分百安全,就像航空业一样,“大家都说坐飞机是最安全的交通工具,但飞机也不是百分百安全。”

这将是一个漫长的过程。莱特兄弟发明的飞机试飞成功 30 年后,道格拉斯 DC-3 让短途飞行变得更安全,航空业才开始走向商业化。

现在全球大约有 2000 辆无人车载客运营,占汽车总数的 0.00014%。算上接下来要进入的洛杉矶,已经商业化运营 4 年的无人车优等生 Waymo 进入了 4 个城市,收入都不够支付车的成本,更别提收回长期研发投入。

大多数公司不再相信短时间能让无人车商用,开始转向研发辅助驾驶技术,让汽车行驶时会主动控制车速与车距,必要时刻提醒司机接管车辆甚至紧急刹停。

更多的人把目光放到了汽车行业外,想用无人车一样的方式改造机器人行业。与无人车相比,让机器人自动运行可能会简单些,它们所处的环境更封闭。工厂或者办公室里的环境不会像道路一样多变。

所有这些探索都需要更多人来当劳动力。11 月初,已经推出机器人的特斯拉将举行公开招聘日,招募人为机器人做图片标注。

如今估值最高的人工智能创业公司,不再是研究算法的公司,而是找人给图片打标签的公司 Scale,美国大多数无人车或机器人公司都是它的客户。Scale 和它跨越数十个国家的众包团队,每个月在 Remotasks 等平台上给不同种类的数据打上数十亿个标签。去年 4 月,它完成融资后估值 73 亿美元,不到半年就翻了一番。

中国的标注公司生意也变得更好。百度在临汾等城市成立数据标注公司,不仅给自己标注数据,还对外提供服务。今年前九个月,数据公司海天瑞声 “智能驾驶” 相关业务同比增长了 200%。

市场研究机构 Research and Markets 预测,到 2030 年,全球数据标注市场规模将比现在扩大 6 倍,从 21 亿美元增长到 127.5 亿美元。

做标注的公司估值高,但真正标注数据的人工资低。我在 Remotasks 上标注一张出租车图片,最后只赚到 2 分钱人民币(0.003 美元)。标注激光雷达数据更贵一些,熟练的标注员每个小时能赚 7.5 美元。在 Remotasks 工作的人大都来自委内瑞拉、肯尼亚等落后国家。

《麻省理工科技评论》曾批评这是 “人工智能殖民”:发达国家的公司享受人工智能带来的利润和便捷,落后国家的劳动力被剥削。但到目前为止,这句话的前半截还没能成立。