每周分享第38期
文章目录
Prefill-as-a-Service
核心是将PD分离放在两个或多个Datacenter中的异构GPU集群。
- 跨集群边界将Prefill从Decode中分离出来,通过将Prefill迁移到更快的计算硬件,可以降低长上下文请求的成本和延迟
- 这个问题的核心障碍在于 KVCache传输量太大。不过最近的混合注意力(Hybrid-attention)架构从根本上改变了这一局面,大幅减少了 KVCache的增长,通常降低了一个数量级
- 在真实的场景下由于请求到达的突发性和长短的不均衡,全部通过跨机房的专线传输还是很容易出现拥塞。 系统上我们需要尽可能识别值得传的 KVCache,从而实现跨机房异构 PD 不仅是更便宜,TTFT 还更低这一目标
- 最基本的原则就包括短的 incremental prefill 就在本地消化,长的才分到远端 prefill,但实际还需要进一步考虑网络拥塞和不同机房 KVCache 复用命中的情况
Prefill-as-a-Service:KVCache的跨数据中心传输
Prefill-as-a-Service:跨机房异构 PD 分离的最后一块拼图是线性注意力?
Kimi新论文:把KVCache玩成新商业模式了
IPADS开源形式化方法智能体FM-Agent
上海交大IPADS开源形式化方法智能体FM-Agent:让代码不仅可生成,还可推理
编程智能体的隐藏bug,被上交IPADS团队用数学逻辑给揪出来了
如今的Coding Agent生成十万行以上的系统级代码,甚至构建一个完整的编译器,都已不再稀奇。但一个严峻的挑战随之而来:如何保障这些大规模代码的正确性?上海交大IPADS团队推出形式化方法智能体FM-Agent,通过将形式化验证方法与LLM结合,首次实现了面向大规模软件的全自动正确性推理,对27万多行已经过层层测试的系统代码进行“深度体检”,找到522个被遗漏的隐蔽bug。
霍尔逻辑由图灵奖得主托尼·霍尔于约六十年前提出,但受限于人工成本,形式化方法在大规模软件中的应用始终未能普及。FM-Agent并未追求传统形式化验证所依赖的严格公式证明,而是借助大模型的强大推理能力,首次实现了面向大规模系统软件的全自动正确性推理。这一工作延续了霍尔逻辑的核心思想,站在巨人的肩膀上,同时也为形式化方法的实际落地提供了新的可行路径。
Harness Engineering
别再说”Prompt工程”了!2026全网爆火的Harness Engineering是什么鬼?
A Survey of Context Engineering for Large Language Models
https://mp.weixin.qq.com/s/deBKVO_TpuoYIfaXb6KlWw
上下文工程(Context Engineering)原理简介
Nsight Systems
NVIDIA Nsys 通常指的是 NVIDIA Nsight Systems(命令行工具nsys),是 NVIDIA 官方的系统级性能分析工具。它主要用于对 CUDA 应用程序进行全系统时间线分析,帮助开发者快速定位 CPU 和 GPU 之间的瓶颈,而不仅仅是 GPU 内核内部的耗时。
Nsight Compute
Nsight Compute:专攻 GPU 内核内部的微架构分析(如带宽、占用率、指令吞吐),属于“内核级”分析。
https://developer.nvidia.com/nsight-compute
manim
可视化数学
https://github.com/3b1b/manim
dmidecode
https://github.com/mirror/dmidecode
Dmidecode reports information about your system’s hardware as described in your system BIOS according to the SMBIOS/DMI standard. This information typically includes system manufacturer, model name, serial number, BIOS version, asset tag as well as a lot of other details of varying level of interest and reliability depending on the manufacturer. This will often include usage status for the CPU sockets, expansion slots (e.g. AGP, PCI, ISA) and memory module slots, and the list of I/O ports (e.g. serial, parallel, USB).
2025阿里云技术年报 基础设施篇
https://mp.weixin.qq.com/s/ykEFWsM1VrYcDSj9KRdzaQ
