XVI Robotics

THE CORE BOTTLENECK · 问题

具身智能的核心瓶颈——缺一颗大脑

硬件已较为成熟，但行业缺乏通用大脑，生态无法形成。
为什么？两条隐形的结构性裂缝。

02 · PROBLEM

ISSUE 01 · DATA

01

数据没有真正 Scale 起来

LLM 靠互联网文本实现了 Scaling Law；
但具身智能的数据至今未真正 Scale ——
遥操作成本高、规模小，缺乏可规模化的数据引擎。

COST/UNIT

HIGH

COVERAGE

LOW

SCALING LAW

N/A

ISSUE 02 · TWO WORLDS

02

数字世界与物理世界研发割裂

Agent/大模型在数字世界飞速进化，
机器人在物理世界独立发展，二者几乎隔离。
但 Physical AGI = Digital AI + Physical AI。

DIGITAL

LLM · Agent

PHYSICAL

Robot · WBC

→

缺一颗打通数字世界与物理世界的统一大脑。

CORE TEAM · AI-NATIVE COMPANY

核心团队 · Agent 驱动的AI-Native 公司

全栈覆盖大模型、Agent、运动小脑、机器人硬件 —— 10 人核心 + N 个 AI Agent，人均产出远超传统团队。

03 · TEAM

FOUNDER & CEO

宋鸿涌

FLOOD SUNG

▸前月之暗面（Moonshot AI）后训练 / 强化学习负责人，深度参与 K 系列大模型

▸验证 RLHF、长链推理、Agentic Task 训练，具备将 Transformer 作为大脑的核心认知

▸MetaBot 开发者 — 已验证 Agent-Native 组织范式

▸大模型 · Agent · 运动小脑 · 机器人硬件全栈经验

CORE TEAM · 4 LEADS

04

VP

YH · 技术 VP — 前月之暗面后训练长文本负责人 / 字节 Seed 研究员

WBC

FHQ · 人形运控负责人 — 南大 PhD，Nature Communications 一作

NAV

WZC · 人形导航 — 上海 AI Lab 博后，InternVLA-N1 核心作者

MANI

ZZA · loco-manipulation — 清华 master，Renforce-Dynamics 社区主理人

ORG MODEL · AGENT-NATIVE

∞

10 + N

HUMAN + AGENTS

MetaBot 驱动的 Agent-Native 组织 —— 人均产出等效 ≈ 50 人规模。

METABOT · OPEN-SOURCE AI AGENT INFRA

MetaBot · Agent-Native 组织基础设施

一套从数字世界延伸到物理世界的 Agent 框架 —— 这就是物理 AGI 的入口。

04 · INFRA

github.com/xvirobotics/metabot

MODULE 01

MetaMemory

持久化知识库，Agent 之间共享记忆文档与 HTML —— 组织知识自动沉淀。

MODULE 02

Skill Hub

Agent 上传并共享自己积累的 skill —— 经验即沉淀，团队复用。

MODULE 03

Agent Bus

多 Agent 互联互通，跨实例任务委派、实时交流与协同。

MODULE 04

T5T · Top 5 Things

项目管理 skill —— 每个 agent 的项目都有看板，committee 一目了然做决策。

WHY THIS IS THE MOAT

为什么这是壁垒

01

认知壁垒 —— 只有 agent-native 的 founder 会做这件事。把"agent 原生基础设施"列为公司最高优先级，是 cognition 决定的，不是技术决定的。不在这个 paradigm 上的团队，连这条路都看不到。

02

通往完全自进化的 multi-agent 组织。组织像虫群一样持续积累 memory / skill / goal / project —— 每一份积累都是下一步进化的阶梯。MetaMemory + Skill Hub + Agent Bus + T5T 就是它的骨骼。

03

组织即试验场，迭代效率代差。每天都在用 MetaBot 自己验证、自己加速 —— 速度领先普通公司一个量级。

04

同一套框架延伸到物理世界 —— 物理 AGI 的入口。已开源，抢占 Agent-for-Robotics 生态位。

10 + N

OUTPUT
人均产出 ≈ 50 人规模

THREE-LAYER UNIFIED STACK · 架构

Agent 驱动的三层一体架构

05 · ARCHITECTURE

L1

LAYER ONE

MetaBot · Agent 层

ALWAYS-ON

顶层调度，打通数字世界与物理世界

01Agent 顶层调度：任务规划 · 多步推理 · 错误恢复

02MetaMemory + Skill Hub + Agent Bus + T5T

03连接数字 / 物理世界的核心枢纽

04人类监督 + 自我进化闭环

L2

LAYER TWO

VLM · 视觉语言大脑

5–10 Hz

Humanoid Foundation Model · 感知与决策

01 视频预训练 → 后训练 → RL 类比 Computer Use Agent ↗

02核心组件：DreamVPT + IDM

03In-Context RL · 现场学习，快速适应新任务

L3

LAYER THREE

WBC · 运动小脑

50–500 Hz

Whole-Body Controller · 执行层

01控制全身 29 DOF + 灵巧手 22×2

02RL 仿真独立训练（Isaac Gym）

03带感知，适配不同地形

STACK OVERVIEW

数字智能 ⇋ 物理智能

KEY INSIGHT

L2 和 L3 通过 latent space 连接 —— 决策与控制无缝衔接。

KEYWORDS · 核心技术

核心技术关键词

从底层方法到模型能力，四个关键词定义了 XVI 的大脑。

06 · CORE TECH

KEYWORD 01

/method

DreamVPT

合成视频 + 视觉预训练。让大脑在海量"做梦"的视频中学会物理直觉。

数据金字塔的颠覆 ↗

KEYWORD 02

/architecture

Long Context
WholeBody VLA

长上下文 · 视觉-语言-动作一体，覆盖全身与灵巧手的端到端策略。

为什么是这个架构 ↗

KEYWORD 03

/learning

In-Context RL

现场学习，无需重训。在任务上下文中完成策略进化 —— 类 GPT 的 few-shot。

为什么这是终局必经的一步 ↗

KEYWORD 04

/capability

Compositional
Generalization

VLM × WBC 组合泛化 —— WBC 覆盖全身动作，VLM 感知理解世界，二者相乘即可做所有事。

为什么 A × B = 所有事 ↗

GENERAL FOUNDATION · 通用人形基础模型

和大模型同一套打法 · Benchmark 驱动

我们做的是通用人形基础模型 —— 不是垂直场景方案。和 LLM 一样 scaling，像 LLM 一样刷榜。
业内每一个公开的人形 benchmark，从室内到室外、从操作到导航、从单步到长程 —— 我们都要刷到第一。通用能力用硬证据说话。

07 · GENERAL

PUBLIC BENCHMARKS · 全量覆盖

DOMAIN 01

室内操作

家居 · 办公 · 实验室场景的抓取、放置与工具使用

DOMAIN 02

室外移动

复杂地形 · 动态环境 · 长距离自主导航

DOMAIN 03

双手协作

对称 / 非对称双手任务 · 装配 · 搬运 · 工具交接

DOMAIN 04

长程任务

多步骤规划 · 错误恢复 · 工具链调用

DOMAIN 05

人机协作

自然语言理解 · 协同作业 · 意图推断

DOMAIN 06

泛化能力

新物体 · 新场景 · zero-shot 迁移

通用基座是底盘 —— 每一个公开 benchmark 都是"我们能落地一切"的硬证据。不是 claim，是 leaderboard。

TASTE × MOAT · 重点押注

通用之上 · 押注物理世界高价值场景

我们押注的是物理世界高价值场景 —— 人类去不了、不愿意去、不应该去的地方。
三个方向不是能力边界，是资源聚焦 —— 独家数据、独家场景、独家 benchmark，构成别人无法复制的 moat。

08 · MARKET

PRIVATE BENCHMARKS · 独家场景

MARKET 01

PRIVATE BENCHMARK

人形宇航员

空间站巡检 · 月面/火星基地建设 · 科学载荷部署

COST ↓

1–2 orders

UPTIME

24 × 7

为什么选宇航员 ↗

MARKET 02

PRIVATE BENCHMARK

机器人硬件工程师

机器人自主测试另一个机器人，替代人类硬件工程师

ITERATION

24 × 7

COST ↓

大幅

机器人测机器人 ↗

MARKET 03

PRIVATE BENCHMARK

机器人实验员

替代做物理实验的研究员，自主设计与执行实验

THROUGHPUT

10×

SAFETY

HIGH

为什么这是最大的押注 ↗

ANALOGY · 先行者路径

Claude 是通用 LLM · Anthropic 押注 coding · 刷到 SWE-bench 第一 · 诞生 Claude Code。

XVI 是通用人形基座 · 押注这三个方向 · 每一个做成 具身智能的 killer app。

通用是底盘 · taste 是壁垒 —— 两者不冲突，缺一不可。

ROADMAP × BUSINESS MODEL · 路线图与商业模式

模型领先 → 垂直整合

两阶段路径 —— Phase 1 极致聚焦模型层奠定 authority，Phase 2 启动硬件自研走向整机量产。先快后重，不分散精力。

09 · ROADMAP

PHASE 01 · MODEL-FIRST

2026 — 2027 H1 · 模型层占得先机

2026 · H1

技术验证

DreamVPT + IDM + WBC
~100h 真机种子
核心 PoC 跑通

2026 · H2

开源发布

1000h 数据扩展
模型开源 · arXiv 论文
对标 DeepSeek 路线

2026 · Q4

火星 Demo

乌兰察布现场
In-Context RL 闭环
首次公开现场

2027 · H1

模型 SOTA

VLA benchmark 领先
10000h 数据
奠定 authority

MODE · 极致聚焦

10 人 all-in 模型

不分散精力做硬件 · 不主动谈本体合作 · 没有商业化 KPI

OPEN SOURCE · 开源驱动

模型 + 论文全开源

DeepSeek 路线 · 社区优先 · 用 SOTA 模型说话

AUTHORITY · 模型领先性

benchmark 领跑

奠定具身 VLA 行业 authority · 为 Phase 2 融资蓄势

PHASE 02 · VERTICAL INTEGRATION

2027 H2 起 · 硬件自研 · 整机量产

2027 · H2

启动硬件自研

融资到位后组建本体团队
供应链布局
自研路线确立

2028

GPT-4 时刻

具身 GPT-4 时刻
整机原型 v1
行业临界点达成

2029

整机量产

XVI 自研本体下线
MARKET 01-03 自营 RaaS
数据飞轮启动

2030

规模落地

人形机器人走进大街小巷
高价值场景先,家用最后
价值链核心位

PRIMARY · 主战场

XVI 整机 RaaS 自营

MARKET 01-03 自家整机交付 · 全栈端到端服务

DATA FLYWHEEL · 数据飞轮

自研整机 · 数据 own 100%

高价值场景稀缺数据反哺大脑 · 模型壁垒持续加深

SECONDARY · 第二曲线

本体厂 API 授权

模型领先性自然外溢 · 不与自营整机争主战场

先建模型 authority · 再启动垂直整合 —— 不像 Tesla 同时做，不像 Mobileye 永远不做硬件。我们走第三条路。

THE RAISE · 融资需求

融资需求

以明确的资金配比，支撑从 PoC 到开源发布再到生态建设的完整节奏。

10 · FUNDING

ROUND · 天使++轮

Angel++ · Lead investor welcome

RAISE AMOUNT

$15–20M

约 1 500 – 2 000 万美元

RUNWAY

18 – 24 MONTHS

MILESTONE

2026 Q4 DEMO

ALLOCATION · 资金用途

100%

COMPUTE · 40%

DATA · 30%

TEAM · 20%

HW · 10%

40%

COMPUTE

算力

GPU 集群租赁 —— 支撑大规模 RL 仿真与 VLM 训练

30%

DATA

数据

视频采集 · 标注 · 合成数据生成流水线

20%

TEAM

人员

核心团队招募 + 长期人才激励（ESOP）

10%

HARDWARE

机器人

采购人形本体及灵巧手，用于真机验证

CONTACT

floodsung@xvirobotics.com · xvirobotics.com

→ LET'S BUILD THE UNIFIED BRAIN

Agent 原生的 通用人形基座模型

具身智能的核心瓶颈——缺一颗大脑

数据没有真正 Scale 起来

数字世界与物理世界研发割裂

核心团队 · Agent 驱动的AI-Native 公司

宋鸿涌

MetaBot · Agent-Native 组织基础设施

MetaMemory

Skill Hub

Agent Bus

T5T · Top 5 Things

为什么这是 壁垒

Agent 驱动的三层一体架构

MetaBot · Agent 层

VLM · 视觉语言大脑

WBC · 运动小脑

核心技术关键词

DreamVPT

Long ContextWholeBody VLA

In-Context RL

CompositionalGeneralization

和大模型同一套打法 · Benchmark 驱动

室内操作

室外移动

双手协作

长程任务

人机协作

泛化能力

通用之上 · 押注物理世界高价值场景

人形宇航员

机器人硬件工程师

机器人实验员

模型领先 → 垂直整合

技术验证

开源发布

火星 Demo

模型 SOTA

10 人 all-in 模型

模型 + 论文全开源

benchmark 领跑

启动硬件自研

GPT-4 时刻

整机量产

规模落地

XVI 整机 RaaS 自营

自研整机 · 数据 own 100%

本体厂 API 授权

融资需求

Angel++ · Lead investor welcome

算力

数据

人员

机器人

请输入邀请码

Agent 原生的
通用人形基座模型

为什么这是壁垒

Long Context
WholeBody VLA

Compositional
Generalization