小米SU7自动驾驶

发布日期：2025-01-03 18:47 点击次数：183

当天，商汤旗下智能汽车事业群商汤绝影发布了自动驾驶大模型DriveAGI，以及行业首个车载生成式交互界面“随心界面”（FlexInterface）、“随意操控”（AgentFlow）等基于多模态大模型的车载AI Agent应用。3月28日小米SU7发布会上的语音演示中，车主可以问小爱同学“这条隧道有多长？”“旁边路过的河是什么河”“前面的车是什么车”“有没有离簋街和望京都很近的川菜馆”，车载语音交互的历史进程向前迈进了一大步。小米SU7语音交互背后就有商汤大模型的支持。商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚透露，商汤与小米的合作从去年的小爱手机开始，小米汽车语音的特点是与手机、其他终端由由同一套体系支撑，汽车语音需要根据用车场景做适度修改，早期有其他供应商平行推进。到今年1月，雷军体验过车机语音后认为模型效果不够好，其他供应商没有做出快速整改，绝影用了一个多星期时间根据要求做出了适应用车要求的模型。比如小米要求首次响应的延时必须控制在2秒之内，也就是说，使用者说了一段话，输入一堆文字，车机反馈时，即使是云端的反馈，也需要在一两秒内迅速响应。这对每家供应商都有挑战，绝影通过各种资源优化和保障措施最终完成得比较好。优化的背后需要一个专注汽车领域的团队，让模型更好地为汽车服务。这次考验后，商汤正式成为小米SU7语音大模型的供应商。6月25日，吉利控股集团旗下子品牌翼真汽车（LEVC）旗下首款豪华纯电MPV翼真L380上市发布，商汤绝影为翼真 L380定制化打造了“AI闲聊”、“美图壁纸”、“童话绘本”、“AI问诊”等AI大模型座舱产品和功能。大模型发力自动驾驶之前，已经在智能座舱上多点落地。多模态大模型能够将语音、文字、图像、手势、视频等各种模态进行高效且深度地融合，提供更加丰富且自然的人机交互体验。过去模型处理不同模态信息是先把语音等输入转化为文字，文字和图像结合进行分析，输出反馈也是先生成文字，根据文字再生成语音输出，会有大量信息丢失和很高的延迟。多模态大模型是一种端到端的模型，文字、语音、视频等不同模态一同输入，模型统一处理后输出相应模态的信息，相较于过去的方案，多模态融合的体验与技术难度都呈几何倍数的提升。智能座舱被改变。为智能座舱带来多大变化大模型在2023年成为人工智能的最大风口，很快形成百模大战局面。有公开数据称，截至2024年4月底，国内共推出305个大模型，10亿参数规模以上的大模型数量已超100个，数量可观。2024年成为大模型真正落地元年。汽车领域，大模型上车两个最大的应用是自动驾驶和智能座舱多模态交互，后者落地速度更快，问界借助华为旗下盘古大模型、极越利用百度文心一言都实现了车端落地，蔚小理这些新势力车企选择自研，小米、LEVC是与供应商合作的代表。

EMC中文网

小米SU7自动驾驶