如何在 Polars 中将标量数值列高效广播加到列表列的每个元素上

如何在 Polars 中将标量数值列高效广播加到列表列的每个元素上

polars 1.10.0+ 支持列表列与标量列的原生广播算术运算,可直接使用 `pl.col(“lst”) + pl.col(“val”)` 实现逐元素相加,无需 `map_elements` 或嵌套 `list.eval`,简洁、安全且性能优异。

在 Polars 中对列表列(list[i64])执行“按行广播”式算术操作(如将 val 列的每个标量值加到对应 lst 列中每个元素上),曾长期受限于 list.eval 不支持跨列引用的限制。但自 Polars v1.10.0 起,该功能已原生支持——列表列与数值列之间的加减乘除等二元运算,会自动按行广播:即对第 i 行的 lst[i] 中每个元素,加上第 i 行的 val[i] 值。

✅ 推荐方案(简洁、高效、向量化):

import polars as pl

df = pl.DataFrame({
    'lst': [[0, 1], [9, 8]],
    'val': [3, 4]
})

result = df.with_columns(
    lst=pl.col("lst") + pl.col("val")  # 直接相加,自动广播
)
print(result)

输出:

shape: (2, 2)
┌───────────┬─────┐
│ lst       ┆ val │
│ ---       ┆ --- │
│ list[i64] ┆ i64 │
╞═══════════╪═════╡
│ [3, 4]    ┆ 3   │
│ [13, 12]  ┆ 4   │
└───────────┴─────┘

⚠️ 注意事项:

你好星识

你好星识

你的全能AI工作空间

下载

  • 此语法仅适用于 Polars ≥ 1.10.0。旧版本会报错或静默失败,请先检查版本:pl.__version__。
  • 列表长度无需一致(如 [[1], [2, 3, 4]]),广播逻辑天然兼容变长列表。
  • 支持所有标准算术运算符:+, -, *, /, //, %, **。
  • 若需更复杂逻辑(如条件加法、调用自定义函数),仍需 list.eval(pl.element().apply(…)) 或 map_elements,但应尽量避免后者(非向量化、无类型推断、性能较差)。

? 替代方案(兼容旧版本,但稍冗余):
若必须支持

# 仅当列表长度一致时推荐;否则需处理缺失字段
result_legacy = df.with_columns(
    lst=pl.col("lst").list.to_struct(n_field_strategy="max_width")
         + pl.struct(pl.col("val"))
).select(
    pl.col("lst").struct.field("*").alias("lst"),  # 展开为列表(需后续转回)
    "val"
)

但此方式返回 struct 类型,且转换回 list 需额外步骤(如 struct.unnest() + list.from_columns),远不如原生广播直观。

? 总结:升级至 Polars 1.10.0+ 后,pl.col(“lst”) + pl.col(“val”) 是最优雅、最高效、最符合 Polars 设计哲学的解决方案——它完全利用底层 Arrow 的向量化能力,零额外开销,代码可读性极佳,应作为首选实践。

https://www.php.cn/faq/1977082.html

发表回复

Your email address will not be published. Required fields are marked *