如何基于条件与分组在 Pandas DataFrame 每行中填充累加值

如何基于条件与分组在 Pandas DataFrame 每行中填充累加值

本文介绍如何在 pandas 中按 `cli_cd` 分组,识别每组内 `cura_t1` 首次出现 1 的位置,并从此处开始逐行累加 `100/6`(约 16.67),生成递增的 `cura_alt` 列;此前及后续的 0 区间则统一置为 0。

要实现该逻辑,核心在于精准界定“连续 1 的起始块”,而非简单按 CLI_CD 分组后全局查找首个 1——因为题目示例中所有行 CLI_CD == 3,但需求实际是:对每个 CLI_CD 子组,仅在其首次出现 1 的连续段内执行累加(即跳过后续再次出现的 0 后的 1 段)。观察目标输出可知:只有第 4–9 行(索引 4 至 9)的 CURA_T1 == 1 被赋值,而末尾两个 0 对应 CURA_ALT == 0,说明逻辑聚焦于首个连续 1 区间

但原始答案使用 df[‘CURA_T1’].eq(0).cumsum() 实现了更通用的“按 0/1 切割段”的策略:它将每个 0 视为新段起点,从而把数据划分为 [0,0,0,0], [1,1,1,1,1,1], [0,0] 三段。随后对每段内 cumcount() 得到序号(0,1,2,…),再乘以 100/6 并取整,恰好匹配预期行为(注意:因浮点精度和 astype(int) 截断,结果为 16,33,50,66,83,100,而非四舍五入的 17,33,50,67,83,100)。

✅ 正确且简洁的实现如下:

import pandas as pd

# 构造示例数据
df = pd.DataFrame({
    'CLI_CD': [3]*12,
    'CURA_T1': [0,0,0,0,1,1,1,1,1,1,0,0]
})

# 关键步骤:按 CURA_T1 是否为 0 累计求和,生成段标识
segment_id = df['CURA_T1'].eq(0).cumsum()
# 对每一段内计数(从 0 开始),乘以步长,转为整数
df['CURA_ALT'] = (df.groupby(segment_id).cumcount() * (100/6)).astype(int)

print(df)

输出:

采风问卷

采风问卷

采风问卷是一款全新体验的调查问卷、表单、投票、评测的调研平台,新奇的交互形式,漂亮的作品,让客户眼前一亮,让创作者获得更多的回复。

下载

    CLI_CD  CURA_T1  CURA_ALT
0        3        0         0
1        3        0         0
2        3        0         0
3        3        0         0
4        3        1        16
5        3        1        33
6        3        1        50
7        3        1        66
8        3        1        83
9        3        1       100
10       3        0         0
11       3        0         0

⚠️ 注意事项:

  • 若需严格匹配目标输出中的 17,33,50,67,83,100,应改用 round() 或 np.round() 而非 astype(int):
    df['CURA_ALT'] = (df.groupby(segment_id).cumcount() * (100/6)).round().astype(int)
  • 该方案天然支持多 CLI_CD:只要 CURA_T1 序列在各 ID 内独立变化,cumsum() 即按全局顺序分段;若需严格按 CLI_CD 分组后再找首个 1 段(例如不同 ID 有不同起始位置),则需嵌套 groupby(‘CLI_CD’) + 自定义函数,但本例无需。
  • cumcount() 默认从 0 开始计数,完美契合“首项为 0 * 100/6 = 0”的需求(但因首 1 行期望为 17,故实际首累加项对应序号 1 → 需确认业务是否要求偏移;本例中索引 4 是首个 1,其 cumcount()==0,故结果为 0 —— 但目标输出为 17,说明应将该段内计数+1。修正方式:+1 后再乘:
    df['CURA_ALT'] = (df.groupby(segment_id).cumcount() + 1) * (100/6)

总结:本方法以 eq(0).cumsum() 构建逻辑段、groupby(…).cumcount() 实现段内累加,兼顾简洁性与可扩展性,是处理此类“条件区间内等差填充”任务的 Pandas 推荐范式。

https://www.php.cn/faq/1969989.html

发表回复

Your email address will not be published. Required fields are marked *