自动驾驶在走过低谷之后,正开始重新攀登高峰。
从去年开始,国内自动驾驶市场的整体表现并不算好,大额融资变得寥寥,而技术上的突破也并不明显,整个行业走向了低谷。
但今年,这一趋势发生了很大的变化。
从政策角度来讲,工信部等四部委联合发布《关于开展智能网联汽车准入和上路通行试点工作的通知》,正式对L3/L4自动驾驶的准入与上路进行了具体的规范,为L3/L4向商业化、规模化迈进进行了政策法规的创新引领与适度超前部署。
《关于开展智能网联汽车准入和上路通行试点工作的通知》
而从技术层面来看,以ChatGPT为代表的通用人工智能技术正在给自动驾驶的发展注入新活力。传统的小模型、小数据弱人工智能方法正被换挡,通过大模型来布局自动驾驶的路径越发明显。
其中最典型的玩家当属特斯拉,通过端到端的大模型技术,其在自动驾驶方面的最新产品FSD V12在海外的表现已经非常稳定了,引进国内也指日可待,届时,特斯拉在自动驾驶领域可能会再次化身为鲶鱼,搅起新的风暴。
特斯拉FSD Beta在不同环境下的示意图
从用户接受度的维度来看,现阶段,部分新购车的用户尤其是新能源汽车的车主对于智能辅助驾驶NOA的接受程度已经越来越高了,完成了初步的用户教育,这也为自动驾驶的真正规模化落地提供了可能性。
可以说自动驾驶的发展正进入一波全新的发展周期。
而在大好形势下,我们也应该清晰地认识到,自动驾驶的发展也还有一些难题需要解决,比如说大模型如何为自动驾驶赋能?放开L3/L4准入政策后,怎样才能真正实现产品落地?多种技术路线之争应该如何决断?
如果不能很好地回答这些问题,那对于自动驾驶的发展来说仍然会产生不小的影响。为了更好得到这些问题的答案,车东西特地采访了国内人工智能和自动驾驶领域的先行者——清华大学计算机系长聘教授,博士生导师,清华大学人工智能研究院视觉智能研究中心主任邓志东教授。
邓志东教授是国内最早一批开始从事人工智能研究的专家之一,同时在2009年就开始了自动驾驶的研发与实践,也属于最早的一批研究者,因此在这两方面无疑有着足够的积累和发言权。
另外预告一下,12月19日,邓志东教授将会在智一科技旗下智能汽车产业新媒体车东西联合硬科技讲解与服务平台智猩猩在深圳联合主办的2023全球自动驾驶峰会(GADS 2023)上发表《多模态视觉语言大模型助力自动驾驶产业落地》主题演讲,分享他对于人工智能和自动驾驶的最新见解。
一、ChatGPT是分水岭 人工智能发展提速
在人工智能领域,邓志东教授绝对算得上是老资历了,1992年在清华博士后期间就开始投身到了人工神经网络的研究方向。
当时研究的主要是人工神经网络与非线性系统学等,这些在当时还处在非常早期的阶段,人工神经网络模型还在缓慢的量变过程中,没有达到质变。
人工智能产业从2012年开始起步,十几年间,真正落地的产品并不算多,一些落地的产品主要为人脸识别、机器翻译与语音识别等,但机器翻译的“机器”味道似乎还比较浓,整个行业并未闭环一个良好的产业逻辑。
2022年,很多行业内的从业人员对于(弱)人工智能产业能否真正落地产生了怀疑。
而ChatGPT无疑是一个划时代的产品,大模型在某种意义上把人工智能这个产业又重新救活了。
ChatGPT聊天页面
不过大模型并不算是一个全新的概念。预训练与微调的范式,2015年前后就出现了,2017年Transformer问世后就开始有了大模型。事实上,2020年出现了两个重要的AI进展,一个是OpenAI推出的GPT-3,另一个则是谷歌的AlphaFold 2,这两项成果被普遍认为是人工智能领域六十多年来产生的“诺奖级”成果。
事实也确实如此。AlphaFold 2就成为了今年诺贝尔奖的候选成果之一,虽然最终没有获奖,但是这一成果和GPT-3基础大模型之重要性,可谓不言而喻。
这些大型语言模型与以往最大的不同之处在于,已开始出现了一些认知能力,这是此前不曾有过的,人工智能确实更聪明了。从目前的视角回头来看,2022年11月30日ChatGPT惊艳问世之前的人工智能十年,应该叫做弱人工智能时代,当时一个模型只能解决一个任务。
当时是小数据、小模型,通常需要标签进行完全的监督学习,而且也还没有摆脱机器性。
现在最大的不同就是模拟并构建了人类语言模型与世界知识模型,开始运用人类的语言思维来理解和学习了。这是一个非常大的突破,语言实际上属于高级文明,不仅可帮助人类沟通交流,而且还便于记载文明,促进人类知识传承,让下一代人站在人类知识总和的肩膀上前行。
相比于人类,机器对人类知识的传承效率更高,可以在短短数年时间内学完人类整个一般性的文本知识,甚至还能记忆得更加准确。
大模型的发展离不开Transformer的出现,2017年6月12日谷歌的NLP研发人员在进行神经机器翻译的时候提出了Transformer这种可规模化的新一代神经网络模型。
八位在谷歌工程师率先提出Transformer
邓志东教授认为,Transformer的诞生并不是突然出现的,当时行业内已有很多人都在研究LSTM模型的注意力机制,包括怎么使用多层的编码器,怎么使用多个的解码器层,怎么去做隐含的特征表达等等,实际已经有了Transformer的雏形。
但是这样的突破性创新或许只能出现在巨头企业里,原因是相比于LSTM,Transformer更加复杂“冗余”了,这就需要更多的GPU算力,显然当时只有头部企业才能有足够的算力去考虑或支撑这样的研究。
不过,Transformer诞生之初还仅是为了做机器翻译,后来才开始用来做文本语言大模型。OpenAI在2015年12月正式成立,初心就是要实现通用人工智能(AGI),而这一使命或愿景也是十分大胆的,此前极少有人敢提及这一观点。
OpenAI初始成员
实际上,OpenAI的核心团队都是硅谷非常成功的人士,新的阶段有了更加宏大的目标。
OpenAI的早期并没有做出什么重要的成果,回过头去看,初期的GPT-1和GPT-2都没有太大的意义,不具有明显的优势,直到GPT-3的出现。
这主要跟模型的架构有关系,BERT等编码器架构的模型文本阅读理解与特征表达能力会比较强,但是生成能力相对较差,反过来,GPT等解码器架构的模型生成能力比较强,但阅读理解能力比较差,OpenAI正是选择了后一种技术路线。
后来通过Transformer神经网络规模的不断增加,特别是与GPU算力的交替跃升之后,才通过大型语言模型的自监督学习与构建,获得了非常大的性能提升。
随着算力和数据的不断扩增,人工智能的能力也在不断提升。现在GPT-4 Turbo甚至已经可以开始利用外部工具了,包括可以调用很多Action来完成任务,这也是一个非常大的突破。