半兽人回复小蕊在 ceph健康检查non-power-of-two pg_num警告中：

有 1 个 pool 的 PG 数不是 2 的幂（例如 300、500 这种），在 Ceph 中不推荐，可能导致分布不均。

通过以下命令查看：

ceph osd pool ls detail | grep pg_num

PG 推荐值：

对副本池：每个 pool 的 PG 数取值一般：128、256、512、1024……
对 EC 池：PG 可以不是 2 的幂，但 Ceph 还是推荐 power-of-two

修复：

ceph osd pool set <poolname> pg_num 256
ceph osd pool set <poolname> pgp_num 256

详细解释

PG 到 OSD 的映射是通过哈希（hash）和一致性映射计算出来的，Ceph 对 PG 的编号是按位（二进制位）运算优化的。如果 PG 数不是 2 的幂，PG 的哈希空间无法平均划分，从而导致某些 PG 映射到更多 OSD，某些更少，引起数据倾斜（PG 不均衡）。

为什么要 2 的幂？

因为 二进制世界里最容易等分的就是 2 的幂。

1）PG 映射本质是取哈希值的前几位

Ceph 用 CRUSH + 哈希把对象分配到 PG。

过程简化如下：

object -> hash -> % pg_num -> pg_id

注意关键：

% pg_num（取模操作）决定对象落在哪个 PG
如果 pg_num = 2^n，则 % 操作相当于 取哈希的低 n 位（二进制）

例：

pg_num = 256 = 2^8
=> object_hash % 256 = 取 hash 的最低 8 位

这样可以做到：

哈希空间平均切成 256 份
每一份大小一致
每一份对应一个 PG
完全均匀

因为哈希空间天然在二进制上是均匀的。

2）如果 pg_num 不是 2 的幂，就不能整齐切分哈希空间

例如：

pg_num = 300

哈希空间不能平均分成 300 份：

哈希空间是 2^k 大小（比如 2^32）
300 不是能整整分割这个空间的数
%300 后的结果并不均匀 → 会造成偏差

举例：

hash % 300

哈希空间范围：0 ~ 2^32-1
而 2^32 除以 300 会留下余数：

2^32 % 300 ≠ 0

这意味着：

一些 PG 会覆盖更多哈希范围
一些 PG 覆盖更少
PG 的对象数量不均
所属的 OSD 负载开始倾斜

最终导致：OSD 空间、IO、PG 数量都不平衡。

3）CRUSH 映射也因为 PG 分布不均而无法完全平衡

CRUSH 的目标是：

PG 在 OSD 上均匀分布
尽可能保证副本在不同机架、主机、盘上分开

但 CRUSH 的前提是：

PG 自己必须是均匀的。

如果 PG 数内部已经倾斜（因为不是 2 的幂），那么：

一些 OSD 会被分到更多 PG
有的 OSD 负载更大
有的更空
数据迁移时也会不均匀

尤其OSD 数少时（比如你只有 6 个 OSD）这个不均匀放大特别明显。

4）举个超级直观的例子（最容易理解）

假设：

你有哈希空间大小 1024（2^10）
你把它分成 10 份（pg_num = 10）

1024 / 10 = 102 余 4

所以：

有 4 个 PG 得到 103 单位空间
其他 PG 得到 102 单位空间

看似差不大，但 Ceph 一个 PG 可能对应几十 GB 数据。

这个小差异会导致 OSD 最终负载明显不同。

如果使用：

pg_num = 8 (2^3)

则：

1024 / 8 = 128（整除）

每个 PG 完全一样 → 完美均匀。

5）真实案例（Ceph 官方报告）

官方统计表明：

pg_num 使用非 2 的幂，会出现 5%～30% 的数据倾斜
OSD 数越少，倾斜越严重
后期扩容/缩容时倾斜更明显

所以直接在 health 警告里要求修复。

6）为什么 Ceph 允许不是 2 的幂？

历史原因 + 某些算法可以容忍，但最终都建议：

powers of 2

尤其你这种 6 OSD 的小集群，影响更大。

总结（最简精华）

PG 是从哈希空间切分出来的，而哈希空间天然是 2^n 的二进制结构。
用 2 的幂作为 PG 数可以完美等分哈希空间，数据分布才会均匀。
如果 PG 不为 2 的幂，则哈希空间无法整除，PG 分布必然不均匀，导致 OSD 空间、IO 倾斜。

10天前

发表了 ceph健康检查non-power-of-two pg_num警告

10天前

西宫硝子关注了Ta · 2年前

阿进贬了在关于kafka中文消息显示乱码问题的评论!

这个不是配置的问题，是你工具的问题。如（sercureCRT，改成UTF-8即可）

3年前

半兽人回复小蕊在 kafka raft模式有什么可视化监控？中：

KafkaOffsetMonitor

轻量级，仅仅用于查询
安全性，提供给任何开发人员

4年前

发表了 kafka raft模式有什么可视化监控？

4年前

小蕊回复半兽人在 Kubernetes如何根据某个节点上的Pod已占用磁盘进行排序？中：

谢谢大佬，解决了我的问题！

kubectl get --raw /api/v1/nodes/k8s-node1/proxy/stats/summary | jq '.pods[] | "PodName: ", .podRef.name, "usedBytes:", .containers[].rootfs.usedBytes, "Logs:", .containers[].logs.usedBytes, "Volume:", .volume[].usedBytes'

4年前

半兽人回复小蕊在 Kubernetes如何根据某个节点上的Pod已占用磁盘进行排序？中：

列出在给定节点中运行的 pods 磁盘使用情况：

kubectl get --raw /api/v1/nodes//proxy/stats/summary | jq '.pods[0] | "PodName: ", .podRef.name, "usedBytes: ", .containers[].rootfs.usedBytes'

其他一些统计数据：

获取节点文件系统使用情况

kubectl get --raw /api/v1/nodes/<NODE_NAME>/proxy/stats/summary | jq '.node.fs.usedBytes'

获取节点 imageFs 使用情况

kubectl get --raw /api/v1/nodes/<NODE_NAME>/proxy/stats/summary | jq '.node.runtime.imageFs.usedBytes'

获取节点 iNodes 统计信息

kubectl get --raw /api/v1/nodes/<NODE_NAME>/proxy/stats/summary | jq '.node.fs.inodesFree'

kubectl get --raw /api/v1/nodes/<NODE_NAME>/proxy/stats/summary | jq '.node.runtime.imageFs.inodesFree'

4年前

发表了 Kubernetes如何根据某个节点上的Pod已占用磁盘进行排序？

4年前

赞了小蕊在 kafka官网为什么那么奇怪，打开官网的文档发现一些章节的链接打不开的评论!

kafka官网在国外

4年前