我们当然可以往模型里灌更多输入,但信息要有信息熵,要有对理解世界有用的信号。
激光雷达在高速公路上,或者高度规则化的场景下可能有用,但在日常城市驾驶,它反而会让系统依赖一个捷径,不去构建真正的世界模型。
你提到大语言模型,对,规模很重要。
但语言模型的前提是人类语言本身就包含了整个世界的复杂性,视觉输入也一样,视觉包含了驾驶所需的全部复杂性。
如果我们加进激光雷达,神经网络可能会依赖‘简化的答案’,而不去学习真正困难但关键的部分。
所以,这不是偷懒。
恰恰相反,纯视觉是更难的路线,需要更强的网络,更大的算力,更聪明的训练,激光雷达是捷径,但走捷径你到不了终点。”
马斯克摊手笑道:“如果你愿意在你的车顶上装一堆传感器,造一辆‘科研用的高价玩具’,当然可以。
但如果你想让全世界几千万辆车都能自动驾驶,就必须走视觉路线,规模化的未来只有一条路。”
林燃说:“多模态多模态,如果连视觉和传感器的数据都没有办法融入到同一个世界里,那又谈什么多模态。
如果我们真的追求的是简单的,单一的,人是怎么理解世界,人工智能或者机器人就应该要怎么理解世界,这是一种傲慢,人类也不应该有汽车、有飞机、有火车,人类就应该只依赖双腿,不断磨炼自己的双腿。
现在的大模型,也不应该用各种结构化、非结构化的数据进行训练,它不但能对话还能输出画面、动画。
从数据到图像再到动画,LLM的大模型输出的越来越多元,反而自动驾驶还抱着原教旨主义的人工智能,认为就应该只有视觉。
现在如果我们有一个框架,能够把激光雷达的数据融入到整个模型里,真正意义上实现广义的自动驾驶,埃隆,你会认为你是错的吗?”林燃问道。
马斯克对于前面都已经习惯了,这些反驳的观点,他在后台、在推特上,甚至在特斯拉内部都能时常看到。
特斯拉打死不用激光雷达真的纯粹是第一性原理吗?又或者是网友们说的那样节约成本吗?
其实都不是,最开始是因为成本,最开始激光雷达贼贵,贵到离谱,所以你不可能光是一颗激光雷达就要大几万美元的成本。
所以最开始特斯拉就制定了纯视觉的自动驾驶方案。
后来你已经在这条技术路线里下了血本,庞大的沉没成本让特斯拉没有办法,再调头去搞什么摄像头和多传感器融合的技术路线,谁知道华国这么快就能把激光雷达的价格打下来啊。
怎么也想不到,这才三年过去,被你们打成两百美元不到的真·白菜价。
大家都是真金白银下去,华为也没有办法做纯视觉方案一个道理。
沉没成本不是那么好放弃的。
林燃接着说道:“正好,择日不如撞日,待会深红科技和华为联手打造的,搭载全球首个准L5级别的自动驾驶技术的车就会停在楼下,邀请你去尝试一下,看你能否改变态度。”
马斯克喃喃道:“L5?”
自动驾驶分成L1到L5,L3是指自动系统能够完成部分驾驶任务,司机能够把任务交给系统,但要做好随时接管的准备。
华国主流基本都停留在这个阶段,只是说因为权责划分,大家只敢在宣传的时候说我这是L2。99999无限9循环。
L4是指特定条件下的纯自动驾驶,萝卜快跑、加州的Waymo就属于这个级别,在特定区域内的全自动驾驶。
L5则是指没有条件限制的自动驾驶,系统在所有条件下完成所有驾驶任务。
林燃点头:“当然。”
身为顶级数学大师,林燃在和华为达成合作后的第一件事就是弄一个多数据集融合下的自动驾驶框架。
华为有数据,林燃出算法,在芯片层面,月球带来的半导体工艺优化补齐了最后一块短板。
现在他们唯一的问题是,虽说芯片是华国本地生产,但用的终究还是ASML的光刻机,国产光刻机尚未攻克,在这个基础上,你的产能怎么都上不去。
昇腾计算卡、麒麟芯片、自动驾驶芯片,这些都要仰仗那寥寥无几的ASML7nm制程光刻机。
产能摆在那,你很难大规模出货。
也正因如此,引进次一级的霓虹技术才显得如此重要,对华国而言是巨大无比的利益。
马斯克接着问道:“成本呢?多传感器的硬件成本是多少?”
林燃伸出五根手指:“一共不会超过5万,单位是rmb。”
这比一套特斯拉的FSD正好便宜一万,你很难认为这不是故意的。
“???”
“要用到尊界上吗?”