滚球(中国)官方网站 物理AI时期核心“卖铲东谈主”:数据网络是机器东谈主下一个风口?
东谈主工智能的底层逻辑正从诳言语模子的"话语富厚"转向世界模子的"展望世界"。在这一跃迁中,物理数据的质料与网络才略成为发展核心。当作科罚世界模子与具身智能"数据燃料"问题的关键,具身数据网络正开启下一代数据基建海浪。
国泰海通最新论说指出,具身智能发展的最大羁系已不再是算法,而是数据缺口。其对数据的需求量呈指数级延长,远超传统 AI 模子。在这一配景下,粗略领先填补数据缺口的数据供应商与基础方法商,将当作物理 AI 时期的"卖铲东谈主",占据产业链核心价值节点,有望享受权贵的估值溢价。
时间阶梯上,确凿数据、仿真 / 合成数据、视频数据各故意弊:精辟实数据成本过高,纯仿真数据存在" Sim2Real "(仿真到现实)规模。已往主流旅途渐渐了了:仿真 / 视频数据用于大领域预庄重 + 确凿数据用于微调与强化学习。
跟着主流时间阶梯日渐了了,成本正加快涌入数据网络器具链(动捕、遥操作)、视频数据升维平台及仿真庄重场——这些数据网络基础方法,正成为机器东谈主产业信得过的风口与"铲子"贸易。
范式编削:世界模子重塑 AI 基石,数据需求延长至 EB 级
AI 正从"数据关系性"驱动转向"物理因果性"驱动,2025 年已成为世界模子应用落地的元年。具身智能对数据的需求量及复杂度正呈指数级爆发。
传统神经汇集与诳言语模子实践上依赖模式识别与概率关联,而"世界模子"的核心在于内建物理端正(如重力、惯性),并具备展望时空演化的才略。自 2025 年起,该领域迎来聚会冲破:Meta 的 V-JEPA 2、谷歌的 Genie、OpenAI 的 Sora 以及 World Labs 的 RTFM 接踵问世。

世界模子将赋能游戏、自动驾驶与具身智能三大核心场景。其中,具身智能的爆发对数据提议了前所未有的残酷条件。与诳言语模子及自动驾驶(PB 级数据量、以文本或视觉为主)不同,具身智能需符合阵势差异的硬件平台,数据需求高达 EB 级,且稀零强调物理交互(力觉、触觉、重要响应)。当今行业仍处早期阶段,预庄重数据稀零紧缺,"数据孤岛"与异构数据会通贫穷已成为制约产业爆发的核心瓶颈。
三大主流数据网络决策利害共存,视频数据成为业内柔顺新焦点
构建高效的数据闭环,是具身智能才略跃升的核心。刻下,成本与时间主要围绕三大数据网络决策伸开:
确凿数据(高保真但稀零腾贵):通过遥操作、一稔式动捕等神气径直网络。上风在于不存在 Sim2Real 差距;致命短板是成本高、扩展性差,难以遮蔽长尾边际场景。

合成 / 仿真数据(高性价比但存在迁徙规模):诓骗物理引擎在造谣环境中生成。成本极低且自带完好意思标签,但濒临权贵的" Sim2Real Gap "(能源学、感知、限度等差异),滚球官网导致模子在确凿环境中性能衰减。

视频数据(开端广但径直应用难):业内新兴焦点,通过升维时间诓骗海量互联网视频。成本低、领域大,但费力物理交互属性(如重力、摩擦力),噪声大且穷乏精准的三维标注。

产业演进趋势:Generalist AI 的 GEN-0 模子(≥ 7B 参数)已诠释,在海量确凿交互数据下,模子性能呈幂律增长。在确凿数据成本被透顶打下来之前,"仿真 / 视频数据预庄重 + 确凿数据微调 / 强化学习"的虚实聚拢决策将是完全主流。
与此同期,底层数据基建正在国度力量与开源生态的鼓舞下加快成型:上海落地了天下首个具身智能领域国度级方法化试点(" 1+N "模式庄重场),北京建立了首个基于确凿场景的数据庄重基地。谷歌、星海图、傅利叶、智元等纷纷发布开源数据集,中国信通院则牵头制定了国内首个具身智能数据集质料评价方法。

机器东谈主本色厂商的"数据站队"与战术分化
恰是由于确凿数据成本高、仿真数据存在迁徙规模、视频数据噪声大,国表里主流机器东谈主本色厂商在数据阶梯上出现了昭着分化。这一分化,反过来为数据网络基建的标的提供了最径直的产业考证。
确凿数据优先派:以为惟有确凿交互能力向上 Sim2Real 规模。智元机器东谈主在大模子庄重阶段 100% 使用真机确凿数据,仿真仅用于工程迭代;自变量机器东谈主在复杂物理交互场景中完全不使用仿真数据;1X Technologies 相同将"大领域确凿世界数据"当作核心壁垒。


合成与仿真数据优先派:押注成本与领域。星河通用接纳 99% 的合成数据配以 1% 确实凿数据进行庄重,试图以极低成本靠近确凿漫衍。

视频数据战术高地:特斯拉、Figure AI 等巨头正加快布局,核心逻辑在于互联网视频领域远超任何单一机器东谈主平台能网络确实凿数据。特斯拉 Optimus 已毁灭早期动捕与遥操作,转向深挖互联网视频;千寻智能 Spirit v1 的 70% 预庄重来自互联网视频;Figure AI 运转 Project Go-Big,探索东谈主类视频到机器东谈主的零样本迁徙;星动纪元、逐际能源则永诀接纳"视频预庄重 + 真机微调"及多源数据组合策略。


这三条阶梯的并存正好证据:刻下尚无单一数据开端能舒服科罚具身智能的数据瓶颈。不管最终哪条阶梯拘谨,数据网络器具链、仿真平台与视频升维时间——即物理 AI 时期的"卖铲东谈主"——齐将是详情趣受益的标的。
数据"卖铲东谈主"全景图
跟着具身智能对数据的需求量级与复杂度指数级高涨,粗略灵验科罚数据获取成本与后果问题的供应商,正迎来一轮估值重估。这一重估遮蔽四个关键标的:视频数据回荡、仿真平台、多模态硬件网络,以及笼统数据干事。
视频数据回荡标的:核心冲破在于将海量互联网视频低成本回荡为机器东谈主可用的庄重数据,部分决策已能将笼统网络成本降至行业平均水平的千分之五以下。
仿真平台标的:全链路合成数据体系以极低成本生成带完好意思标注的大领域造谣数据,并渐渐松开 Sim2Real 差距。
确凿数据网络硬件标的:光惯会通手套、电子皮肤等传感器聚拢高质料开源数据集,正在构建高保真底座。
确凿数据生态与遥操作标的:大领域自建网络场景与高精度遥操作开采,已成为主流微调数据的遑急开端。
在二级商场视角下,笼统性数据干事商通过多元决策(遥操作、动捕、合成数据)建树具身智能数据庄重场与工程化平台;仿真平台公司则通过收购整合买通虚实数据壁垒,提供全生命周期物理 AI 科罚决策。
合座来看,不管是视频回荡、仿真生成、硬件网络仍是笼统干事,粗略权贵普及数据"可得到性"与"成本后果"的供应商滚球(中国)官方网站,正在从产业边际走向估值核心。
开云kaiyun(中国)体育官网