GTC2024：理想汽车怎么玩儿转大模型

在英伟达GTC2024的AI 驱动汽车科技创新发展的会议上，理想汽车智能空间算法首席科学家陈伟介绍了理想智能座舱领域人机交互方面的进展。

陈伟介绍了理想智能座舱人机交互的技术理念，基于大模型Mind GPT的新型的空间交互技术和产品，Mind GPT背后的AI工程架构是如何实现的。

以下是陈伟演讲内容整理，在不影响原意的基础上略有整理和删减。

注：关注“智车引擎”公众号，并回复数字“4”，将获得本场讲演的PDF。

人机交互的技术理念

人机交互的界面，我们认为正在从二维的平面走向物理世界下面三维的空间。在这样的三维空间下，人与机器之间的交互方式，正在从人适应机器转变为机器来主动适应人，那么只有这样才能让人与机器之间的交互更加自然。

而在我们整个的空间加交互的架构下面，融合了语音、视觉、触控等多模态的感知信息，致力于为用户提供可以媲美人与人交互的自然的交互体验。那么承载整个三维空间交互的AI助手就是理想同学，我们期待理想同学能够成为每一个车主家庭的数字成员，让车内每个人都能够轻松的使用AI。

在李想同学背后涵盖了从感知智能到认知智能的多项AI的技术，覆盖了感知、理解、表达三大的能力。其中借助全车麦克风以及摄像头的强大的传感器，理想同学具备了听、看和触摸的多模态感知能力。

GTC2024：理想汽车怎么玩儿转大模型

而在端和云强大算力的加持下，理想同学能够充分的理解语言、理解用户、理解世界，并给出自然而且有价值的回答。最后借助智能空间的全景声以及多屏显示的能力，理想同学的回复信息得到了充分的表达，为用户提供了沉浸式的交互体验，不断加强人与车的情感连接。目前，以感知和表达的代表的感知智能已经走向了成熟，但是理解代表的认知智能能在发展中，直到22年年底的时候，大模型的出现带来了一次认知技术上面的变革。

GTC2024：理想汽车怎么玩儿转大模型

众所周知，人工智能的三要素是数据算法和算力。

伴随着互联网、移动互联网、车联网的兴起，整个网络积累的海量的数据可以用于AI大批量的学习。截止到2023年的时候，全球已经有55亿的移动用户，同时在过去10余年中，以英伟达的GPU为代表的人工智能处理的能力在惊人的增长，令人震撼的是过去10年的算力已经增长了1000倍，这种进步并不来自于摩尔定律的预测，而是来自于全新的结构性的变化。

同时 AI算法伴随着深度学习的兴起，迎来了新一轮的技术浪潮。2016年AlphaGo战胜人类是人工智能发展历史上的里程碑的事件，之后2017年transformer的提出奠定了如今基础的神经网络架构。

随后 open AI陆续推出了GPT1一直到GPT3，那么模型的规模在急速的扩大，一直到2022年11月基于大模型GPT3.5的Chat GPT震惊了全世界。大模型的兴起变革了AI模型的训练范式，带来了新一轮的认知革命，也迎来了通往通用人工智能的曙光。那么整个AI在经历了计算智能、感知智能的突破以后，迎来了认知智能技术上的爆发，经历了2023年大模型技术井喷式的发展之后，行业现在也逐步开始共识，基于大语言模型，Agent的技术将是走向AGI的关键路径之一。

GTC2024：理想汽车怎么玩儿转大模型

那么大语言模型对于理想这边智能空间的空间交互也非常的关键，李想同学的智能化水平的提升也急需借助于大语言模型和Agent的技术来实现整个产品体验上新的突破。

为此，我们在2023年6月份发布了我们的多模态认知大模型——MindGPT。结合我们多模态感知技术和大语言模型MindGPT，我们全面升级了空间交互的能力，基于多模态感知能力，我们可以充分的感知整个智能空间的各种模态的信息，并且把它转化为了人类的语言。

我们基于自研的Taskfomer结构设计了面向Agent的大模型MindGPT。那么基于MindGPT就可以更好的对人类语言进行理解进行反馈，更好的完成人与机器之间的交互。

GTC2024：理想汽车怎么玩儿转大模型

那么接下来我就分别和大家介绍一下在空间交互这个体系下面的两个核心技术，一个是多模态感知，一个是MindGPT。

在多模态感知方向上，感知技术现在已经逐渐在从小模型+流水线级联的方式，升级为了端到端的大模型。我们在内部我们这样的端到端的感知类的大模型称之为MindGPT—MP是multi model perception的简称。

那么为了打造面向智能空间的空间动态感知的技术，我们在信号、语音、视觉这样感知领域都实现了技术的创新和突破。那么这里面也列出了我们在过去的一年间发表的一些论文，大家也可以参考。

GTC2024：理想汽车怎么玩儿转大模型

MindGPT—MP使用了海量的视听数据，进行了自监督学习和多任务的精调，借助整个全车麦克风以及前后排的摄像头，理想同学能够同步感知多路音频和视觉的信号，经过信号的分离、增强、编码、融合等前处理的技术以后，可以让车内的用户定位和人声分离都更加的精准。理想同学就能像人一样边看边听边听边看，同时能够实现更强的多语种、多多语言、多方言、多任务的感知能力。

理想同学在交谈的过程中能够快速准确的知道谁在说、在说什么内容，情绪怎么样，发生了哪些有趣的事儿？

GTC2024：理想汽车怎么玩儿转大模型

我希望和大家介绍一下我们在多模态交互上面的一些能力，我们也陆续发布了多个创新的多模态感知能力。

第一个是多模态的指代，我们希望在车里面能够产生开窗、开灯，打开屏幕、控制座椅这样的一些小需求的时候，不用让用户说非常冗长的话，也不用担心用户一直想不起来这个东西叫什么，而出现了交互上的坎坷，我们可以用更加简单省力的指代的方式，用一个手指来指代，比如说这个那个来完成。

目前指代的方向其实覆盖了全车的各个方向，同时理想同学也能看得懂指代更多的人和物品，那么接入更多的空车和体验上的交互，比如说可以说把那个屏打开，那么理想同学就会自己学习，因为你是要打那个方向上的屏幕，他会更加熟悉车里的每一个地方，更好的熟悉每个家人的需求。

那么第二个多模态的可辨析的说，理想同学可也能够读懂电影海报内容，可以随意表达。孩子即便不认识字，也可以根据海报内容描述自己想要的内容，那么最后快速的实现对于和车之间的交互。

最后其实就是我们的方言自由说，在这种方言自由说的能力下面，我们现在可以用一个模型就能实现这种9种这种多方言的自由感知。

GTC2024：理想汽车怎么玩儿转大模型

MindGPT能做什么？

以MindGPT为核心，我们逐渐构建了感知、规划、记忆、工具、行动的完整的Agent的能力，其中MindGPT基座模型使用了自研的Taskformer的结构，那么我们在整个MindGPT的训练中进行了充分的自监督学习，然后在整个学习世界知识的同时，我们也重点在车载场景的15个重点领域进行了知识的加强。在这个基础上，其实基于我们整个在车载场景里面重要的三个大的场景和领域，用车出行和娱乐。

GTC2024：理想汽车怎么玩儿转大模型

我们使用了sft和rlhf这样一系列的训练以后，能够覆盖在这三大场景里面的大概110多个领域，大概有1000多种的专属的能力，能够让MindGPT具备了理解生成、知识记忆和推理这三大的能力。

MindGPT作为整个大模型的控制器，它可以连接外部的Model Zoo和APIZoo，那么通过大模型对于用户输入的理解和思考，有条理的进行任务的规划，独立的完成自己擅长的部分，同时能够调度外部的API和专用模型，解决自己不擅长的部分，持续能够拓宽大模型能力的覆盖。比如说其实我们也使用了RAG的技术，能够通过大模型去连接搜索的能力，然后通过搜索增强就能够时刻获取更新更准确的信息了。

同时 MindGPT也建设了记忆网络。因为李想同学是希望能够面向全家人服务全家人的，那么所以理想同学应该理解和明白会懂每一位家人。那么因此记忆非常重要，我们可以让两个同学能够基于和之前不同的人之间的历史的对话，能够记住用户的偏好和习惯，同时理解每一个用户目前的状态，从而让理想同学和人之间的交互更加个性化，也更加理解用户。

那么最后MindGPT的在线强化学习能力，能够基于用户的反馈和纠偏，不断能够迭代自身的能力，让理想同学越用越好用。

2023年12月份的时候，我们的MindGPT也参加了行业权威的中文大模型评测，C-Ezal和CMMLU，并且在这两个榜单上取得了双榜第一的成绩。而也就在2023年的12月份，我们通过理想的OTA5.0向用户推送了全新的MindGPT。

GTC2024：理想汽车怎么玩儿转大模型

MindGPTMind上线以后的理想同学在用车、娱乐和出行等多个场景里面，都展现了非常强的人机交互能力。

大模型的工程化

在大模型工程侧，我们主要分为两部分，一部分是大模型的训练，另外一部分是大模型的推理。

大模型的训练平台liPTM LLM pretrain Model的平台实现大模型的密集训练，基于大模型推理引擎LisaRT-LLM模型，它的推理服务实现了大模型的落地应用，这两部分的工作都基于英伟达GPU来完成的。

GTC2024：理想汽车怎么玩儿转大模型

那么接下来其实就会重点介绍一下里PTM和LisaRT-LLM我们这两部分的工作。

首先想介绍一下我们整个的推理的服务，那么也就是MindGPT的云服务的这种架构，我们针对整个大模型的特点，设计了整个端云融合的MindGPT的推理服务体系，那么在整个架构图里面字底向上其实包括了针对业务场景优化的类似LisaRT-LLM的大模型的推理引擎。

第二就是和LisaRT-LLM结合的大模型的调度和推进的平台。那么这个平台其实整个在服务上面的设计，就是希望它能够做到推理服务的编排、请求的调度、模型部署这样的一些能力，能够结合模型的类型业务的场景，包括Continuous Batching的这样的一些因素能够实时将生成的这种请求调度是最新的一些推理的后端，实现最优的性能和吞吐。

GTC2024：理想汽车怎么玩儿转大模型

第三部分，其实是Taskformer中控服务，那么这个服务其实就实现了整个大目前用户所必需的一些数据库的集成检索，增强规划和记忆的能力。那么再往上其实就是我们的SCI SDK，那么有了这样的SDK以后，就更好的去服务我们的应用的集成，在这个 SDK里面其实它有本地端的AI能力业务，我们直接云端的能力，那么它实现了端云一体化的模型能力的输出。

为了支撑整个百亿千亿级的MindGPT大模型的高效迭代，你看我们也自研了TB级吞吐的大数据的数据系统LiARK。

那么基于LiARK，就会支撑我们的这种千亿级参数这个大规模的训练系统LiPTM。为了加速整个大模型数据集的高效生产，我们其实组合了像CPU GPU的能力，然后构建了高性能的分布式的数据的任务的集群，来处理这种海量的原始数据。因为对于训练来说，其实除了整个算力之外，其实数据本身以及数据的传输也是非常重要的。

那第二件事其实就是为了加速整个千亿级大模型的高效训练，我们在使用了这种比较领先的模型结构和高性能的训练算子以及高效的训练策略的同时，其实也实现了4D的并行训练的模式，这4D就包括了像数据并行、 TCL并行、流水线并行和序列并行这样的一些训练模式，那么有了这些模式以后才能有机会及我们的算力的设备及我们的GPU去完成更大规模的大模型的训练。

GTC2024：理想汽车怎么玩儿转大模型

千亿级的这种大模型的这种训练里，PTM它其实在整个训练速度和效率上，其实目前我们达到了还算不错的效果。目前在基座的这个训练阶段，训练速度我们用像TOKEN/秒或者是sample/秒来评估的话，那么在适配的相同的模型架构以后，在相同的训练集下，训练过程中的速度就像图中所示，那么是HF的transformer的5.12倍，高于DeepSpeed的transformer的1.6倍和ColossalAI的相对于HF的3.25倍，就是相对来说我们对于HF transformer的这个效果的相对的提升来说，也是最高的。

在SFT阶段整个训练速度，在适配的相同模型结构以后，在相同训练集下面，整个训练的过程也如图所示，它是这个目前行业里面就是最好开源能力的3倍以上；在强化学习RHF训练速度上面是DeepSpeed大概3.1倍左右；从吞吐力上，在适配的相同模型结构以后，在相同训练集下面TFlOPS相比DeepSpeed也要快一些。这是在整个训练的过程中，其实整个对标的情况。

GTC2024：理想汽车怎么玩儿转大模型

当然就这块我觉得不管是目前开源的社区，还是各个公司大家自己预训练的平台上，整个进步都是非常快的。我们这块其实整个的这种迭代速度也在持续的根据我们的模型结构做更深入的进行训练的这种优化和定制。

我们其实也在做这个大模型落地应用的推理的工作，那么最核心的其实就是这个自研了LisaRT-LLM大模型的推理引擎，这一块的话其实就可以完成像百亿千亿级的参数量大模型的落地。

首先就是对于GPT这种结构的模型，我们其实跟进了一些这个行业先进的一些推理加速的方案，比如说像FusedMHA或FlashAttention这样的方案，把核心算子优先加速起来，同时就是为了提升整个吞吐力的话，我们其实使用了Continuous Batching这样的方式去提升整个服务的并发量，然后最后再通过像tppp这种结合的方式，实现整个单卡或多卡的这种模型的并行，然后来应对这种千亿级参数量的这种大模型最终的落地。

我们也结合了我们MindGPT的业务场景和英伟达在英伟达这个 SRT-LLM的这个团队，我们做了非常深入的合作，进一步来提升了这个性能，然后降低推理成本。

我们主要做的工作就包括了三部分。

第一个就是说我们就是设定了比较明确的优化目标，就是能够在产品性能要求的情况下，一般来说我们就是整个Prefill延迟大概控制在了500 500毫秒以内，然后然后我们解码的速度控制在了20~30token/秒左右，然后尽量的去把我们的服务吞吐量去撑上。

第二件事其实就是我们也在围绕MindGPT的业务场景做了定制的优化，比如说现在缓存通用的一些泡沫的结果，做一些像Prefuse的一些catch什么的，然后根据这个生成的文本长度和性能要求，针对不同的垂域去选择对应的调度优化的策略。

第三个其实就跟英伟达SRT-LLM团队的这种合作，在一些核心算子，我们可以用TRT-LLm的这个能力直接来实现，那么这块其实对我们的助力也非常大。

GTC2024：理想汽车怎么玩儿转大模型

通过这个上述的LisaRT-LLM的优化方案以后，其实我们在2023年Q4完成MindGPT推理服务的成功的落地。这块也是伴随着整个OTA在李想同学中这个MindGPT的上线来一起完成的。这块当时我们也在跟业界的优秀的开源的LLM的推理引擎做了性能的对比，那么测试的方法其实就是使用了线上的真实数据，然后固定QPS来做压测，然后在Prefill在500毫秒以内，然后解码速度在20Token/秒以上，这样的性能要求下，大概去测试一下整个推理服务最大的吞吐量。

GTC2024：理想汽车怎么玩儿转大模型

那么图上的这个推理框架大的分别就是TGI的V1.1.0、vLLM的2.0和LisaRT-LLM10月份的版本。

那么这三个比完了以后，其实整个可以看到基于目前就是理想同学的场景，就我们实际车载的场景来看的话，其实测试结果在a800上面，LisaRT-LLM的这个吞吐率相比vLLM大概有1.3倍以上的提升。

这张图就可以看到就是这三个推理框架Prefill的延迟，随着QPS的压力增大以后的变化曲线，我们可以看到Prefill Latency这个纵坐标，当小于500毫秒的时候能达到的最大QPS，因为超过500毫秒，用户能够明显感受到就会响应非常的慢，就很难达到我们产品上的需求了。

GTC2024：理想汽车怎么玩儿转大模型

GTC2024：理想汽车怎么玩儿转大模型

大众汽车更多>>

本田汽车更多>>

别克汽车更多>>

丰田汽车更多>>

奥迪汽车更多>>