str.join() 在拼接大量字符串时比 + 快10–100倍,因 + 是 O(n²) 而 join() 是 O(n);少量短字符串时 + 可能更快或无差别,但应优先用 join() 避免错误和可维护性问题。

str.join() 真的比 + 快?先看结论
在拼接大量字符串时,str.join() 通常比反复用 + 快 10–100 倍;但拼接 2–3 个短字符串时,+ 可能更快或无差别。关键不在“绝对快慢”,而在“增长趋势”——+ 是 O(n²) 时间复杂度,join() 是 O(n)。
为什么 + 拼接会越来越慢?
Python 字符串不可变,每次 a + b 都要分配新内存、复制全部内容。拼接 k 个长度为 m 的字符串时,+ 实际拷贝字节数约为 km + (k−1)m + … + m ≈ k²m/2。
-
+在 CPython 中对两个字符串有少量优化(如右操作数引用计数为 1 时尝试 inplace realloc),但仅限两两之间,链式拼接(s1 + s2 + s3 + ...)无法受益 -
join()一次性遍历输入序列,预计算总长度,只分配一次内存,再逐段 memcpy - 当元素是生成器(如
(str(x) for x in range(1000)))时,join()会先转成 tuple 或 list —— 这步开销需计入,但仍是线性
实测边界:多少个字符串开始显优势?
用 timeit 测试不同规模(所有字符串长 10 字符):
# 拼接 10 个字符串:join 快约 1.2× # 拼接 100 个:join 快约 8× # 拼接 1000 个:join 快约 65× # 拼接 10000 个:+ 已明显卡顿,join 仍稳定
但注意这些陷阱:
立即学习“Python免费学习笔记(深入)”;
- 若你写的是
s = s + item循环(而非链式a+b+c),CPython 3.12+ 对这种模式做了专门优化(+=也适用),速度接近join(),但语义上仍是可变累积,不推荐用于逻辑清晰的批量拼接 - 如果待拼接对象不是
str(如int、bytes),join()直接报TypeError: sequence item 0: expected str instance,而+会静默失败或抛其他异常 - 空列表
[''].join([])返回空字符串;''加零次没意义,但sum([''], '')这种错误替代法在空输入时反而出错
真正该关心的不是“快多少”,而是“别在哪翻车”
生产代码里,性能差异往往被 I/O 或算法掩盖,但错误用法会直接崩溃或引入 bug:
- 别对非字符串序列用
join(),先[str(x) for x in items]或用生成器表达式''.join(str(x) for x in items) - 避免在循环内累积
s += piece(即使 Python 优化了,可读性和意图也不如提前收集再join()) - 日志拼接、SQL 拼装、HTML 模板等场景,一旦元素数量不确定(比如用户输入的 tag 列表),
join()是唯一安全选择
最易被忽略的一点:当拼接内容来自文件行或网络流,且单次数据量不大但调用极频繁时,join() 的函数调用开销和中间 list 构建成本可能反超简单 + —— 这时应考虑 io.StringIO 缓冲写入,而不是纠结 join vs +。
