每周分享第37期

CubeSandbox

核心优势

极致冷启动：基于资源池化预置和快照克隆技术，直接跳过耗时初始化流程。整个沙箱服务端到端冷启动一个可服务的沙箱时间平均 < 60ms
单机千例的高密部署：基于 CoW 技术实现极致内存复用，用 Rust 重构底层极致裁剪，使得单实例内存开销低至 <5MB，轻松在一台机器上跑起数千个 Agent。
真正的内核级隔离：告别不安全的 Docker 共享内核（Namespace）。每个 Agent 拥有独立的 Guest OS 内核，杜绝容器逃逸，放心运行任何大模型生成的未知代码。
零成本迁移（E2B 完美平替）：原生兼容 E2B SDK 接口规范。只需替换一个 URL 环境变量，无需业务代码改动就可切换到免费的 Cube Sandbox，并获得更好的性能体验。
网络安全：基于 eBPF 的 CubeVS 在内核态实现严格的沙箱间网络隔离，支持细粒度出站流量过滤策略。
开箱即用：可一键快速部署，同时支持单机部署和集群部署。
事件级快照回滚（coming soon）：百毫秒级的高频快照回滚能力，基于快照快速创建分叉探索环境

历史文档:

Cube轻量虚拟化如何做到100ms交付一个安全容器

IPADS开源SkVM

上海交大IPADS开源SkVM：让Agent Skill”一次编写，处处高效运行”

Agent时代重新思考编译技术：Skill是代码，LLM+Harness是异构处理器，借鉴语言虚拟机（Language VM）的设计理念，首次将传统编译器与运行时思想系统性地引入Agent技能领域，SkVM让Skill一次编写，到处高效执行。

核心理念：把Skill当作程序来编译

英伟达 GPU 机密计算

英伟达 GPU 机密计算：AI 时代机密计算边界的延伸

传统机密计算主要保护 CPU 执行环境中的数据与代码，其目标是在操作系统、虚拟化层乃至平台管理员不完全可信的前提下，仍然保证工作负载的机密性与完整性。Intel TDX、AMD SEV-SNP 和 Arm CCA 虽然实现路径不同，但本质上都属于 CPU 侧可信执行环境基础设施：通过硬件隔离、内存保护、启动测量和远程证明，为虚拟机或受保护执行域建立一个不依赖宿主软件信任的安全边界。它们解决的核心问题是，应用在 CPU 和系统内存中运行时，如何不被宿主环境窥探或篡改。

但在 AI 基础设施中，仅有 CPU 侧保护并不充分。因为真正承载高价值数据和核心计算的，往往已经不是 CPU，而是 GPU。模型权重、推理输入、检索增强数据、中间激活值乃至部分业务逻辑，都会进入 GPU 显存并在加速器上执行。如果机密计算只覆盖 CPU 虚拟机，而无法覆盖 GPU 执行路径，那么对 AI 而言，这种保护就是不完整的。英伟达 GPU 机密计算的意义，正是在于把机密计算的保护边界从 CPU 扩展到 GPU，使 GPU 成为整个可信执行体系的一部分，保护模型参数、数据和其他重要客户资产。

为什么 AI 时代值得重新讨论 OS：从 Linux Kernel 到 GPU 执行栈的系统重构

https://mp.weixin.qq.com/s/dVpd5_99co4wk0L-tOpiJQ

AI时代的操作系统革新，核心不在于推翻Linux，而在于围绕tensor、graph、kernel、KV cache等新的一等对象，建立一套从驱动、编译器到运行时服务的全新系统抽象，以管理和调度异构计算资源。

DPU PCC

DPU PCC：为什么拥塞控制从“固定算法”走向“可编程”

DOCA 官方给出的定义非常直接：Programmable Congestion Control（PCC）允许用户设计并实现自定义的拥塞控制算法，以更灵活地处理集群中的网络拥塞问题。
PCC 不是一个具体的拥塞控制算法，而是一个拥塞控制开发框架。它的目标是提供一套 API 和执行环境，让客户可以自己写算法、加载算法、运行算法，并基于网络反馈动态调整每条流的发送速率。

DPU PCC 的本质，是把拥塞控制从一个封闭的网卡内置算法，升级成一个运行在 DPU 数据路径加速环境中的可编程控制框架。它让开发者能够围绕真实业务需求，自定义反馈机制、流状态管理和速率调节逻辑，从而在 AI、存储和多租户集群中获得更合适的网络行为。

Sandlock：最轻量级的 AI Agent 沙箱

The lightest AI sandbox. A process-based sandbox for Linux, no container, no VM, no root.

应对AI Agent的安全问题，不应盲目堆叠重量级的硬件隔离，而应针对其应用层的行为模式，设计精细、轻量的访问控制策略。Sandlock正是这一理念的实践，它提供了一种更贴合Agent本质的安全方案。

Lightweight process sandbox for Linux. Confines untrusted code using Landlock (filesystem + network + IPC), seccomp-bpf (syscall filtering), and seccomp user notification (resource limits, IP enforcement, /proc virtualization). No root, no cgroups, no containers.

1	sandlock run -w /tmp -r /usr -r /lib -m 512M -- python3 untrusted.py

Bubblewrap vs Sandlock

Bubblewrap和Sandlock是两种设计理念和实现路径都截然不同的沙箱工具。简单来说，Bubblewrap是一个通用的、轻量级的“容器构建工具箱”，而Sandlock是一个为AI Agent场景专门设计的、高密度的“进程执行沙箱”。

目标定位不同

Bubblewrap是一个通用的工具，旨在安全地运行一个浏览器或一个游戏等普通应用。而Sandlock则是专为AI Agent量身定做，它思考的问题是：“如何安全、高效地让大模型生成的上万个代码片段并发执行？”。

安全模型的根本分歧

这源于它们对“敌人”的不同理解。

Bubblewrap默认环境中可能存在主动的攻击者，因此首要任务是利用Namespace创建一个与外界隔绝的“硬边界”。
Sandlock则认为Agent不是攻击者，真正的风险是提示词注入。它的核心不是建立边界，而是通过Landlock和Seccomp执行一套精细的访问控制策略（Policy），例如这个Agent只能读/data目录，只能写/tmp。

效率的极致追求

在AI场景中，常需同时运行成百上千个沙箱实例。Bubblewrap每个实例都需要独立的初始化过程，资源开销会线性增长。而Sandlock通过其写时复制（COW）技术，可以瞬间从一个“黄金镜像”克隆出上千个实例，共享内存，极大节省了时间和空间。同时，Sandlock的开销极低，启动仅需5毫秒，远快于传统容器或虚拟机。

如何选择

选择Bubblewrap，如果你的目标是：

为普通桌面应用（如一个闭源游戏或聊天软件）提供一个基础的运行沙箱。
需要一个无需守护进程、轻量级的通用沙箱工具。

选择Sandlock，如果你的目标是：

在AI Agent系统中安全地执行由模型生成的不可信代码。
需要高并发、低延迟地执行大量短暂任务（如批量代码评估）。
需要精细到每个工具调用的访问控制策略。

基于GPU加速的内存回收方案

vivo的ZRAM异构压缩技术：基于GPU加速的内存回收方案

key idea: 将zram压缩内存数据的操作由CPU offload到GPU以进行加速。

文章目录