张贴在 2025
介绍 Gateway API 推理扩展
作者 Daneyon Hansen (Solo.io), Kaushik Mitra (Google), Jiaxin Shan (Bytedance), Kellen Swain (Google) | 2025.06.05 在 博客
现代生成式 AI 和大语言模型(LLM)服务在 Kubernetes 上带来独特的流量路由挑战。 与典型的短生命期的无状态 Web 请求不同,LLM 推理会话通常是长时间运行的、资源密集型的,并且具有一定的状态性。 例如,单个由 GPU 支撑的模型服务器可能会保持多个推理会话处于活跃状态,并保留内存中的令牌缓存。 传统的负载均衡器注重 HTTP 路径或轮询,缺乏处理这类工作负载所需的专业能力。 传统的负载均衡器通常无法识别模型身份或请求重要性(例如交互式聊天与批处理任务的区别)。 各个组织往往 …
Gateway API v1.3.0:流量复制、CORS、Gateway 合并和重试预算的改进
作者 Candace Holman (Red Hat) | 2025.06.02 在 博客
加入 Kubernetes SIG Network 社区,共同庆祝 Gateway API v1.3.0 正式发布! 我们很高兴地宣布,通过推迟这篇博客的发布,现在已经有了多个符合规范的实现可供试用。 API 1.3.0 版本已于 2025 年 4 月 24 日发布。 Gateway API v1.3.0 为 Standard 渠道(Gateway API 的正式发布渠道)带来了一个新功能:基于百分比的流量复制, 并引入了三个新的实验性功能: 跨源资源共享(CORS)过滤器 Listener …
Kubernetes v1.33:原地调整 Pod 资源特性升级为 Beta
作者 Tim Allclair (Google) | 2025.05.16 在 博客
代表 Kubernetes 项目,我很高兴地宣布,原地 Pod 调整大小特性(也称为原地 Pod 垂直缩放), 在 Kubernetes v1.27 中首次引入为 Alpha 版本,现在已升级为 Beta 版本, 并将在 Kubernetes v1.33 发行版中默认启用! 这标志着 Kubernetes 工作负载的资源管理变得更加灵活和不那么具有干扰性的一个重要里程碑。 什么是原地 Pod 调整大小? 传统上,更改分配给容器的 CPU 或内存资源需要重启 Pod。 虽然这对于许多无状态应用来 …
Kubernetes 1.33:Job 的 SuccessPolicy 进阶至 GA
2025.05.15 在 博客
我代表 Kubernetes 项目组,很高兴地宣布在 v1.33 版本中,Job 的成功策略已进阶至 GA(正式发布)。 关于 Job 的成功策略 在批处理工作负载中,你可能希望使用类似 MPI(消息传递接口) 的领导者跟随者(leader-follower)模式,其中领导者控制执行过程,包括跟随者的生命周期。 在这种情况下,即使某些索引失败了,你也可能希望将 Job 标记为成功。 然而,在没有使用成功策略的情况下,Kubernetes 中的领导者跟随者 Job 通常必须要求所有 Pod 成功 …
Kubernetes v1.33:容器生命周期更新
作者 Sreeram Venkitesh (DigitalOcean) | 2025.05.14 在 博客
Kubernetes v1.33 引入了对容器生命周期的一些更新。 容器生命周期回调的 Sleep 动作现在支持零睡眠时长(特性默认启用)。 同时还为定制发送给终止中的容器的停止信号提供了 Alpha 级别支持。 这篇博客文章深入介绍了容器生命周期的这些新内容,以及如何使用它们。 Sleep 动作的零值 Kubernetes v1.29 引入了容器 PreStop 和 PostStart 生命周期回调的 Sleep 动作。 Sleep 动作允许你的容器在启动后或终止前暂停指定的时长。这为管理优 …
Kubernetes v1.33:Job 逐索引的回退限制进阶至 GA
作者 Michał Woźniak (Google) | 2025.05.13 在 博客
在 Kubernetes v1.33 中,逐索引的回退限制特性进阶至 GA(正式发布)。本文介绍此特性及其优势。 关于逐索引的回退限制 当你在 Kubernetes 上运行工作负载时,必须考虑 Pod 失效可能影响工作负载完成的场景。 理想情况下,你的工作负载应该能够容忍短暂的失效并继续运行。 为了在 Kubernetes Job 中容忍失效,你可以设置 spec.backoffLimit 字段。 此字段指定容忍的失效总数。 但是,对于每个索引都被视为独立单元的工作负载, 比如过易并行的工作负 …
Kubernetes v1.33:镜像拉取策略终于按你的预期工作了!
作者 Ben Petersen (Microsoft), Stanislav Láznička (Microsoft) | 2025.05.12 在 博客
镜像拉取策略终于按你的预期工作了! Kubernetes 中有些东西让人感到奇怪,imagePullPolicy 的行为就是其中之一。 Kubernetes 作为一个专注于运行 Pod 的平台,居然在限制 Pod 访问经认证的镜像方面,存在一个长达十余年的问题, 详见 Issue 18787! v1.33 解决了这个十年前的老问题,这真是一个有纪念意义的版本。 说明: 在本博文中,“Pod 凭据”这个术语将被频繁使用。 在这篇博文的上下文中,这一术语通常指的是 Pod 拉取容器镜像时可用于身份 …
Kubernetes v1.33:流式 List 响应
作者 Marek Siarkowicz (Google), Wei Fu (Microsoft) | 2025.05.09 在 博客
随着基础设施的增长,管理 Kubernetes 集群的稳定性变得愈发重要。 在大规模集群的运维中,最具挑战性的操作之一就是处理获取大量数据集的 List 请求。 List 请求是一种常见的操作,却可能意外影响集群的稳定性。 今天,Kubernetes 社区非常高兴地宣布一项重大的架构改进:对 List 响应启用流式编码。 问题:大型资源导致的不必要内存消耗 当前的 API 响应编码器会将整个响应序列化为一个连续的内存块,并通过一次 ResponseWriter.Write 调用将数据发送给客户 …
Kubernetes v1.33:防止无序删除时 PersistentVolume 泄漏特性进阶到 GA
作者 Deepak Kinni (Broadcom) | 2025.05.05 在 博客
我很高兴地宣布,当无序删除时防止 PersistentVolume(简称 PV) 泄漏的特性已经在 Kubernetes v1.33 中进阶为正式版(GA)!这项改进最初在 Kubernetes v1.31 中作为 Beta 特性引入, 确保你的存储资源能够被正确回收,防止不必要的泄漏。 以前的 Kubernetes 版本中 reclaim 是如何工作的? PersistentVolumeClaim(简称 PVC) 是用户对存储的请求。如果创建了新的 PV 或找到了匹配的 PV,则认为 PV …
Kubernetes v1.33:存储动态制备模式下的节点存储容量评分(Alpha 版)
作者 Yuma Ogami (Cybozu) | 2025.04.30 在 博客
Kubernetes v1.33 引入了一个名为 StorageCapacityScoring 的新 Alpha 级别特性。 此特性添加了一种为 Pod 调度评分的方法, 并与拓扑感知卷制备相关。 此特性可以轻松地选择在具有最多或最少可用存储容量的节点上调度 Pod。 关于此特性 此特性扩展了 kube-scheduler 的 VolumeBinding 插件, 以使用从存储容量获得的节点存储容量信息进行评分。 目前,你只能过滤掉存储容量不足的节点。因此,你必须使用调度器扩展程序来实现基于存储 …