如何基于条件与分组在 Pandas DataFrame 每行中填充累加值

2026-01-12

如何基于条件与分组在 Pandas DataFrame 每行中填充累加值

本文介绍如何在 pandas 中按 `cli_cd` 分组，识别每组内 `cura_t1` 首次出现 1 的位置，并从此处开始逐行累加 `100/6`（约 16.67），生成递增的 `cura_alt` 列；此前及后续的 0 区间则统一置为 0。

要实现该逻辑，核心在于精准界定“连续 1 的起始块”，而非简单按 CLI_CD 分组后全局查找首个 1——因为题目示例中所有行 CLI_CD == 3，但需求实际是：对每个 CLI_CD 子组，仅在其首次出现 1 的连续段内执行累加（即跳过后续再次出现的 0 后的 1 段）。观察目标输出可知：只有第 4–9 行（索引 4 至 9）的 CURA_T1 == 1 被赋值，而末尾两个 0 对应 CURA_ALT == 0，说明逻辑聚焦于首个连续 1 区间。

但原始答案使用 df[‘CURA_T1’].eq(0).cumsum() 实现了更通用的“按 0/1 切割段”的策略：它将每个 0 视为新段起点，从而把数据划分为 [0,0,0,0], [1,1,1,1,1,1], [0,0] 三段。随后对每段内 cumcount() 得到序号（0,1,2,…），再乘以 100/6 并取整，恰好匹配预期行为（注意：因浮点精度和 astype(int) 截断，结果为 16,33,50,66,83,100，而非四舍五入的 17,33,50,67,83,100）。

✅ 正确且简洁的实现如下：

import pandas as pd

# 构造示例数据
df = pd.DataFrame({
    'CLI_CD': [3]*12,
    'CURA_T1': [0,0,0,0,1,1,1,1,1,1,0,0]
})

# 关键步骤：按 CURA_T1 是否为 0 累计求和，生成段标识
segment_id = df['CURA_T1'].eq(0).cumsum()
# 对每一段内计数（从 0 开始），乘以步长，转为整数
df['CURA_ALT'] = (df.groupby(segment_id).cumcount() * (100/6)).astype(int)

print(df)

输出：

采风问卷

采风问卷是一款全新体验的调查问卷、表单、投票、评测的调研平台，新奇的交互形式，漂亮的作品，让客户眼前一亮，让创作者获得更多的回复。

下载

    CLI_CD  CURA_T1  CURA_ALT
0        3        0         0
1        3        0         0
2        3        0         0
3        3        0         0
4        3        1        16
5        3        1        33
6        3        1        50
7        3        1        66
8        3        1        83
9        3        1       100
10       3        0         0
11       3        0         0

⚠️ 注意事项：

若需严格匹配目标输出中的 17,33,50,67,83,100，应改用 round() 或 np.round() 而非 astype(int)：
```
df['CURA_ALT'] = (df.groupby(segment_id).cumcount() * (100/6)).round().astype(int)
```
该方案天然支持多 CLI_CD：只要 CURA_T1 序列在各 ID 内独立变化，cumsum() 即按全局顺序分段；若需严格按 CLI_CD 分组后再找首个 1 段（例如不同 ID 有不同起始位置），则需嵌套 groupby(‘CLI_CD’) + 自定义函数，但本例无需。
cumcount() 默认从 0 开始计数，完美契合“首项为 0 * 100/6 = 0”的需求（但因首 1 行期望为 17，故实际首累加项对应序号 1 → 需确认业务是否要求偏移；本例中索引 4 是首个 1，其 cumcount()==0，故结果为 0 —— 但目标输出为 17，说明应将该段内计数+1。修正方式：+1 后再乘：
```
df['CURA_ALT'] = (df.groupby(segment_id).cumcount() + 1) * (100/6)
```

总结：本方法以 eq(0).cumsum() 构建逻辑段、groupby(…).cumcount() 实现段内累加，兼顾简洁性与可扩展性，是处理此类“条件区间内等差填充”任务的 Pandas 推荐范式。

https://www.php.cn/faq/1969989.html

如何基于条件与分组在 Pandas DataFrame 每行中填充累加值

发表回复 取消回复

发表回复取消回复