李智强:未来补足大模型的短板,要通过触觉
“2025世界大会”于8月8日至12日在北京经济技术开发区开幕。“AI 大模型赋能机器人与具身智能产业新范式交流活动”作为2025世界机器人大会的专题活动于8月8日同期召开。深圳一目科技有限公司创始人兼CEO李智强出席并演讲。

以下为演讲实录:
大家好!我今天给大家带来的题目是“触觉增强的世界模型”。
今天看到很多在具身智能发展还是非常疯狂的,作为一个AI科技老兵看到这些发展也是非常期待,我2011年从CMU毕业,当时AI还在发展的初期,带大家回顾一下AI发展的早期,从2000年初开始有了ImageNet,然后逐渐催生了视觉智能向前发展。那时候非常不够先进,从2010年开始尝试识别视觉里的各种物体。到了今天过去15年已经发展到了OpenAI的ChatGPT这种多模态模型完全能够进行语义的理解以及重建。我们已经走到了今天纯视觉重建的过程。
我觉得具身智能的未来应该是过去15年视觉智能过去发展历史的起点,未来其实还有一些缺失的部分,我们到底应该做哪些事情来补足这些,来推动人工智能在具身智能方向发展。我们看到了这样一些缺失点。比如说我们对于整个世界物理模型的一些参数还是有缺失的,其实有很多在VLA模型跑的非常先进了,我觉得也是非常好的开始。
比如说对于一些材质、物理结构更高维度的参数还是缺失的,如果想构建这样一个世界大模型的话,其实还是要补足这样一个过程的,因此我们认为靠什么来补足还不能获取的数据。可以参考过去的发展,通过camera的演进,通过视觉模型的演进获得更好的视觉辨认能力和语义理解能力以及对于听觉的理解能力。
未来在更多的维度对于物体的理解上需要补足触觉的理解力的。特别有意思的一点,触觉的感知和执行其实是一个物体,都是我们的手。这个跟视觉和听觉不太一样的地方,视觉和听觉对于非接触性的物体的感知非常好,但一旦有了接触,我们的执行器和感知器是完全统一的,这也是它最美妙的地方之一。
因此我们觉得未来补足大模型的短板,是要通过触觉。能不能通过触觉来增强VLA模型?真正的推动具身智能的发展。
具体怎么做?我们想做一个思想实验,每个人可以尝试一下从口袋里摸一下物体,人是可以非常轻松的辨别出口袋里到底是一把钥匙还是一个耳机,还是一枚硬币。这个过程怎么做到的,不是一个非常严谨的推理和计算的逻辑,其实是人对这个物质和世界逐渐的触碰、探索、3D构建以及物理世界映射的关系。我可以很容易的知道这把是钥匙,这个是耳机,我认为其实机器人也应该能够重构人对于物理世界感知的能力。
如果有一天机器人能够不停的通过触碰,通过探索来重建类人的感知能力,那我觉得才是世界模型到达终极目标的那天。具体怎么做到?我们也不是先行者,我们应该从PIXELS到VOXELS,我们从一个真实的物理世界通过数字化的PIXELS化获得更多维度的触觉感知的信息,最终通过物理世界的三维构建形成VOXELS信息,导入到我们的物理大模型里面去,然后形成更多维度的感知。
如果想实现这件事情,这样的触觉感知系统需要满足三个条件。
第一个条件,一定是绝对类人的感知能力,而且是始于所有的对于类人触觉能力的反算,要基于从原理上、从架构上、性能上、形态上要有绝对的类人性。
第二个条件,在系统工程的优化能力上要做到高保真的鲁棒系统。我们看视觉和听觉的演进,都是从最早的低像素、低分辨率到逐渐类人化的演进。我们认为触觉也应该有相似的过程,逐渐逼近人类的触觉能力,所以应该从空间一致性、时序稳定性、信号完整性以及生物贴合性完全类人。
第三个条件,既然要成为具身智能,一定要跟具身的大模型打通,必须形成一种高效鲁棒的算法体系,能够从端到端结合大现有的VLA或者VTLA模型里面去,能够形成类人的感知能力。
这三点都是需要满足的才是最终极的触觉感知能力。
我们也不是这个世界上第一个提出的,我们也致敬前辈,视触觉和光触觉的方案应该是目前看到的最好的一类触觉解决方案,一目也发布了视触觉的解决方案,在它的高保真、高像素以及鲁棒性分析做到了最优化。
我们可以像人一样通过反复的触碰这个物理世界演进,然后重构对于物理世界三维坐标体系以及三维形态的理解,形成更多维度的能力体现,最终输入到大模型里进行具身智能的演进。这是第一个问题就是硬件问题,能够通过触觉传感器来解决。
具身智能在Locomotion、Navigation方面已经做的非常好了,但在Manipulation尤其是精细化操作方面还是有欠缺的,这个欠缺主要还是在数据上的欠缺。数据集是我们最缺乏的东西,我们怎么去解决第二个问题就是数据问题,一目也想通过触觉传感器以及触觉解决方案能够加速海量的高质量数据的收集这样一个过程。如何去做?我们也比较相信英伟达提出的逻辑。如果仅仅靠人力来收集数据的话永远是线性的,永远不可能像OpenAI,像ChatGPT一样赶上海量的数据,这个线性的路径完全不能让我们走向具身智能终点的,我们的想法是一定要用现实作为锚点,通过仿真作为数据放大的过程,放大10倍、100倍甚至1000倍的能力来加速整个的采集。但这里有一点,一定是有真实数据作为你的锚点去增加你的数据量。
这样的话才能赶上具身智能数据的需求。如果具身智能没有海量数据,其实很难推动它的发展。我们做了很多尝试和实验,在物理模型里通过英伟达的物理模型先去尝试触碰了世界上上百万种物体,比如说有胶水、螺丝刀和各种钢笔等等,已经在仿真世界通过不同的环境、不同的光照、不同的物理形态做过了这样的模拟和触碰。很快就可以把这样的算法迭代到实际应用当中去了。
这段时间就是先通过仿真获得基础模型,然后在现实中对这个模型做一些现实真实数据的恢复。最终可能通过一两次的抓握,就能够完全重构原来需要做很多次尝试的场景。比如已经可以辨认各种各样的物体,甚至对于物体的位姿和形态进行判断。
另外这个过程中鲁棒性要有实时的校准,如果对它进行干扰,也能够重新回到最正式的姿势中去。我们不仅仅关注成功案例,也会关注失败案例,比如说做一些易碎东西的夹取,人都是通过很多次的尝试去学习。我们知道那些失败的案例,也知道成功的案例,才能更快的达到最稳定的状态。
因此我觉得通过硬件能力以及对于算法和数据的加成的发展,才能进入到一个快车道,最终如何满足用户的需求,如何提供这些服务,英伟达提出了一套通用机器人的架构,我们非常认同。这套架构未来应该是更容易接入的,通过对于原始材料的调度和处理,可以调用不同的physical intelligence的engine,最终给用户交付的是我们的文明、我们的结果、我们的用户价值。通过这样的通用架构来实现通用价值的落地。
通用性到底是如何完成的,到底有多么的通用,我们分析了一下,世界上80%都是通用case,但是会发现人也很不一样,比如说专业运动员,专业的手术大夫,他们的手其实跟人是不一样的,他们的intelligence也是更专业化的,所以我们提出必须能够从等体与软件上共同来打通这样一个解决方案。
日常任务可以分为下肢强度型以及上肢精度型。我们主要关注的是精细化的操作,偏上肢的运动能力,也会发现也符合二八原则。80%的日常任务,可以通过较为通用的模块来实现。还有20%的特殊任务可以提供更专业化的更多的训练案例来解决。为大家提供了manipulation as a service,我们认为精细化即服务这是一项更好的实现路径,通过服务包括硬件、软件、算法能够为所有需要做精细化操作的场景提供通用服务。今年年底会带来这样的服务,敬请大家期待。
最后介绍一下我们公司,我们一目科技,2015年成立于美国的硅谷。我们这个名字的来源其实有点意思,在五亿两千五百万年前,其实是三叶虫发展出了第一个能够感光的眼睛,带来了整个生物的大爆发,带来了所有智能生物的发展,我们一目就相信自己希望成为那个人工智能里的第一只眼,能够推动整个人工智能向未来具身智能向更高更快的Scaling law发展,而做出自己的贡献,希望跟大家进行一个合作。
谢谢大家!
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。
- • 美媒视角下的中美军事实力对比:谁将主导未来?
- • 马华之死:揭开一个时代传奇的落幕
- • 国家卫健委:2024年全国双向转诊人次数达3656.7万
- • 承平日久:岁月静好的背后
- • MHMarkets迈汇:美国油气钻井活动持续下滑
- • 德康农牧盘中涨超6% 天风证券首予“买入”评级
- • 成都银行:职工监事张蓬辞任
- • 揭秘古代神秘“发财咒语”:财运亨通的神秘力量
- • 獐子岛集团股份有限公司:海洋渔业领域的领军企业
- • 高考移民:合法途径与注意事项
- • 正义联盟吧:守护正义,凝聚力量
- • 揭秘艾戈勒手表骗局:消费者如何辨别真伪,保护自身权益
- • 丰田SUV报价一览:品质与性能的完美结合
- • 美联储官员对降息前景存分歧:有人希望利率维持现状,有人称今年或降息两次
- • 外盘头条:特朗普否认准备解雇鲍威尔 美联储褐皮书显示经济活动略有回升 加密货币监管法案在国会再遇阻碍
- • 招商基金总经理徐勇因任期届满离任,“老将”钟文岳回归接棒
- • 特朗普对国会表示:在支出法案通过前 “任何人不得休假”
- • 中华医学会官网登录:开启医学交流与学习的便捷之门
- • 亚洲杯八强对阵图:激战正酣,精彩纷呈!
- • 澎湃读报丨央媒头版集中刊发社论,庆祝“五一”国际劳动节
- • 汽车早报|问界M8纯电版预售价37.8万元起 大众集团下调2025年度展望
- • 许亚军:多才多艺的影视演员,演艺生涯的精彩篇章
- • 界面晚报 | 中美相互调整关税正式实施;甘薇宣布和贾跃亭离婚
- • 《冰雪奇缘》主题曲英文版:冬日里的温暖旋律
- • 周杰伦长沙演唱会:音乐盛宴,青春回忆
- • 债务可持续性存疑 渣打称2026年美元可能面临“大幅”下跌风险
- • 刘大成北京演唱会:歌声飘扬,激情四溢,民族音乐的魅力绽放
- • 2018京剧名家名段演唱会:经典传承,魅力绽放
- • “挖划算返利网:网购省钱新选择,轻松享受购物乐趣”
- • 落地逾7个月,支持资本市场的两项新工具有何进展?
- • 特朗普称并未在关税问题上退缩 “这叫谈判”
- • 《火影忍者553集:命运之轮的转动,忍者世界的未来之战》
- • 《驳康有为论革命书:对维新派革命思想的批判性思考》
- • 新舟60飞机最新动态:我国航空工业再添新力
- • 网红与合伙人为何总是“微博见”完“法院见”?从李雪琴的资本纠纷谈起
- • 三星电子首推韩国Top 10企业多子女员工退休后再就业制度
- • 《老井》电影完整版免费观看:一部感人至深的农村变迁史
- • 《中华人民共和国监察法草案:构建新时代反腐新格局的里程碑》
- • 《梅麻吕游戏电脑版:带你领略日式游戏的独特魅力》
- • 解读|特朗普重返后中美外长首次会面,专家:双方强调共识多于分歧
- • 女足世界杯2021赛程表:激情燃烧的绿茵战场
- • 高考报志愿网站登录贵州:便捷服务助力学子梦想起航
- • 法国5月新车注册量下降12.3% Stellantis领跌
- • 二次元的夏天!首届上海国际动漫月将至,三大漫展会师联动
- • 双方同意互换数千具士兵遗体之际,乌克兰袭击克里米亚大桥
- • 董耀鹏当选新一届中国文艺评论家协会主席
- • 重病老人被要求亲自取款在银行去世,农行株洲分行:成立专项工作组、配合警方调查
- • 光明日报:划定毕业照收费“规矩”,不只是为家长减负
- • “轻松解决iMessage正在等待激活的烦恼”
- • 周子瑜事件:一场关于文化认同与民族情感的争议
- • 临澧山洲烟花公司爆炸背后的待解之问
- • 温州龙湾区一人大代表呼吁“促进90后积极面对婚姻”,官方答复
- • 江西电大:开启终身学习新篇章
- • 龙江福彩:承载希望,传递爱心
- • 探索色彩世界,打造个性化综合色站
- • 台江富民村镇银行被罚21万元:未按规定履行客户身份识别义务
- • 四大会计师事务所招聘信息:2023年最新职位空缺及申请指南
- • 特朗普:与英国达成“重大协议” 将为美国产品扩大市场准入
- • 阿根廷国家队球衣:激情与荣耀的象征
- • 《深入汴河迷案:攻略指南助你一探究竟》
- • 对话荣耀CEO,透露IPO进展!
- • 风清扬歌曲:穿越时空的旋律,唤醒心中的武侠梦
- • 北方华创控股芯源微:推动不同设备工艺整合,在供应链、客户资源等方面加强协同
- • 浙江女子骑电动车买菜,遭风筝线割喉!当事人:当时都吓哭了
- • 巴菲特掌舵伯克希尔60年后将卸任CEO,库克:认识他是人生中最珍贵的经历之一
- • HTFX外汇:南非迈出脱煤关键一步
- • 《水饺皇后》:命运如刀,她以饺子还击
- • 汽车早报|鸿蒙智行针对非辅助驾驶版车主推出增换购补贴 捷尼赛思中国区CEO朱江辞任
- • 《穿越时空的奇幻之旅:无限之龙珠传奇》
- • 《花木兰袁咏仪版:经典角色的现代演绎》
- • 《反恐精英OL官网2:全新升级,反恐精英新篇章开启!》
- • 泰国5月通胀率连续两月为负值,下调全年通胀预期至接近零
- • 镭射:揭秘神秘的光束科技
- • 新兴市场货币上涨 美联储官员讲话提振降息预期
- • 《GTA5中的惊心动魄:玩家体验抢银行的真实快感》
- • 应急管理部:7月全面进入主汛期,北方局地洪涝灾害风险偏高
- • 全球黄金ETF持仓量:市场风向标与投资风向
- • 中国高速公路网高清图:展现国家交通建设的辉煌成就
- • 雾芯科技2025年第一季度净营收8.1亿元
- • CBA官方对孙铭徽罚款3万、广厦投资人楼明停赛2场罚款5万
- • 霍桑实验的结论:揭示工作环境对员工行为与生产效率的深远影响
- • 餐车工作人员违规横越线路致列车紧急停车,铁路回应
- • 楼市数据呈现积极变化,新华社:房地产市场保持基本稳定
- • 跨越时空的共鸣:尹正与张国荣的演艺之路
本文 快租网 原创,转载保留链接!网址:https://mip.kuaizu.me/post/25304.html