
本文深入探讨了PHP中利用curl_multi进行并发HTTP请求时常见的性能瓶颈及优化策略。针对curl_multi_select函数在PHP中可能存在的非阻塞行为和超时参数不生效的问题,文章详细阐述了如何构建健壮的双循环结构来高效管理并发请求,避免不必要的等待时间,确保请求处理流程尽可能快地完成。通过提供优化的代码示例和关键注意事项,帮助开发者实现高性能、高可靠的并发请求处理。
1. 理解 curl_multi 的并发机制
curl_multi 是 php 中用于并行执行多个 curl 请求的强大工具。它通过一个主句柄(multi handle)管理多个独立的 curl 句柄(individual handle),从而允许应用程序同时发起并处理多个 http 请求,显著提高数据抓取或 api 调用的效率。其基本工作流程是:初始化一个 curl_multi 句柄,添加所有待处理的 curl 句柄,然后在一个循环中反复调用 curl_multi_exec 来执行请求,并使用 curl_multi_select 来等待 i/o 活动。
2. curl_multi_select 的行为与性能挑战
在 curl_multi 的循环中,curl_multi_exec 函数负责执行请求,而 curl_multi_select 函数则用于等待套接字活动,即等待某个 cURL 句柄完成数据传输或有新的数据可读写。理想情况下,curl_multi_select 应该阻塞执行,直到有活动发生或达到指定的超时时间。然而,在某些 PHP 版本或特定环境下,curl_multi_select 可能表现为非阻塞(即立即返回),或者其超时参数(如 0.05 秒)并未被完全尊重。
当 curl_multi_select 无法有效阻塞时,即使没有 I/O 活动,循环也会频繁地空转,导致 CPU 占用率升高,并且在两次有效的请求处理之间产生不必要的延迟,从而影响整体性能。这使得开发者难以判断请求是否以最快速度完成,以及是否存在“浪费时间”的情况。
3. 健壮的 curl_multi 循环结构
为了克服 curl_multi_select 的潜在行为问题,并确保并发请求的高效处理,推荐采用一个包含两个嵌套循环的结构。这种结构能够更精确地控制请求的执行和等待逻辑,避免空转。
<?php
/**
* 模拟创建多个 cURL 句柄
* @param array $urls 待请求的 URL 数组
* @return array cURL 句柄数组
*/
function createCurlHandles(array $urls): array
{
$handles = [];
foreach ($urls as $url) {
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
// 设置一个合理的超时,防止单个请求长时间阻塞
curl_setopt($ch, CURLOPT_TIMEOUT, 10);
$handles[] = $ch;
}
return $handles;
}
// 示例 URL 列表
$urls = [
'https://www.example.com',
'https://www.google.com',
'https://www.github.com',
'https://www.baidu.com',
'https://www.bing.com',
];
$curlHandles = createCurlHandles($urls);
// 1. 初始化 multi cURL 句柄
$mh = curl_multi_init();
// 2. 将所有 cURL 句柄添加到 multi 句柄中
foreach ($curlHandles as $ch) {
curl_multi_add_handle($mh, $ch);
}
$running = null;
$startTime = microtime(true);
// 3. 主循环:执行并管理并发请求
do {
// 执行 cURL 请求,返回正在运行的句柄数量
// curl_multi_exec 应该被反复调用,直到所有请求完成
$mrc = curl_multi_exec($mh, $running);
// 检查是否有错误发生
if ($mrc != CURLM_OK) {
// 可以根据实际情况抛出异常或记录错误
error_log("curl_multi_exec error: " . curl_multi_strerror($mrc));
break; // 退出循环
}
// 如果没有正在运行的句柄,则所有请求已完成,退出循环
if ($running == 0) {
break;
}
// 内部循环:等待 I/O 活动
// 设定一个合理的等待时间,例如 1 秒
// 0.05 秒可能太短,导致频繁空转;1 秒可以减少 CPU 占用
$selectTimeout = 1.0;
// 如果没有活动,curl_multi_select 返回 0。如果返回 -1 表示错误。
// 循环直到有活动或超时,避免忙等
while (true) {
$selectResult = curl_multi_select($mh, $selectTimeout);
if ($selectResult === 0) {
// 没有活动,且达到了 $selectTimeout,为了避免 CPU 忙等,可以稍微暂停
// 注意:如果 curl_multi_select 实际不阻塞,usleep 是必要的
usleep(10000); // 暂停 10 毫秒,减少 CPU 占用
break; // 跳出内层循环,让外层循环再次调用 curl_multi_exec
} elseif ($selectResult === -1) {
// select 错误
$multiErrno = curl_multi_errno($mh);
error_log("curl_multi_select error: " . curl_multi_strerror($multiErrno));
break 2; // 退出内外层循环
} else {
// 有活动发生($selectResult > 0),可以继续执行 curl_multi_exec
break;
}
}
} while ($running > 0); // 只要还有请求在运行,就继续循环
$endTime = microtime(true);
echo "所有请求完成,耗时: " . round($endTime - $startTime, 4) . " 秒/n";
// 4. 获取结果并清理句柄
$results = [];
foreach ($curlHandles as $ch) {
$results[curl_getinfo($ch, CURLINFO_EFFECTIVE_URL)] = curl_multi_getcontent($ch);
curl_multi_remove_handle($mh, $ch);
curl_close($ch);
}
curl_multi_close($mh);
// 打印部分结果以验证
// foreach ($results as $url => $content) {
// echo "URL: " . $url . ", Content Length: " . strlen($content) . "/n";
// }
?>
4. 代码解析与注意事项
-
外层 do…while ($running > 0) 循环:
立即学习“PHP免费学习笔记(深入)”;
- 这个循环是整个并发处理的核心。它会持续执行,直到 curl_multi_exec 返回 running 变量为 0,表示所有 cURL 句柄都已完成其传输任务。
- curl_multi_exec($mh, $running): 这是关键函数。它尝试执行所有在 multi 句柄中的 cURL 请求。$running 变量会实时更新为当前仍在进行中的请求数量。
- 错误检查:$mrc != CURLM_OK 用于捕获 curl_multi_exec 自身的错误。
-
内层 while (true) 循环与 curl_multi_select:
- 目的:此内部循环的目的是在没有 I/O 活动时,避免外层循环的忙等(busy-waiting)。它负责等待网络活动,或者在指定超时后继续。
- curl_multi_select($mh, $selectTimeout): 这是等待 I/O 活动的函数。
- 如果它返回 > 0,表示有句柄准备好进行 I/O 操作(例如,数据已到达或可以发送)。此时应立即跳出内层循环,让外层循环再次调用 curl_multi_exec 来处理这些活动。
- 如果返回 0,表示在 $selectTimeout 时间内没有检测到任何活动。这可能是 curl_multi_select 非阻塞行为的表现,或者确实没有活动。在这种情况下,为了防止 CPU 占用过高,我们应该使用 usleep() 暂停一小段时间。
- 如果返回 -1,表示 select 操作本身发生了错误。应进行错误处理并退出。
- usleep($selectTimeout * 1000000): 如果 curl_multi_select 返回 0(无活动),并且我们希望避免 CPU 忙等,可以引入 usleep。usleep 的参数是微秒,所以 $selectTimeout 乘以 1000000 转换为微秒。在示例中,我将其改为一个较小的固定值 10000 微秒(10毫秒),以在没有活动时提供一个短暂的暂停,避免过于频繁的空转,同时保持响应性。
-
超时参数的权衡:
- curl_multi_select 的超时参数 ($selectTimeout) 需要仔细权衡。如果设置过小(如 0.05 秒),在没有活动时可能导致频繁的 select 调用和 usleep,增加上下文切换开销。如果设置过大,可能会在有活动时延迟 curl_multi_exec 的调用,从而增加整体完成时间。
- 考虑到 PHP 中 curl_multi_select 的行为不确定性,一个较长的 $selectTimeout (例如 1.0 秒) 配合 usleep 在 selectResult === 0 时短暂暂停,是一个比较稳健的策略。
-
错误处理:
- 务必对 curl_multi_exec 和 curl_multi_select 的返回值进行检查。使用 curl_multi_strerror() 获取详细的错误信息,并根据业务需求进行日志记录或异常抛出。
-
资源清理:
- 在所有请求完成后,必须调用 curl_multi_remove_handle() 从 multi 句柄中移除每个 cURL 句柄,并调用 curl_close() 关闭每个独立的 cURL 句柄,最后调用 curl_multi_close() 关闭 multi 句柄,以释放系统资源。
5. 总结
通过采用上述的双循环结构,开发者可以更有效地管理 PHP 中的 curl_multi 并发请求。这种方法解决了 curl_multi_select 可能存在的非阻塞问题,通过在无活动时引入短暂的 usleep 来避免 CPU 忙等,从而确保请求处理的效率和系统的稳定性。虽然 API 自身的响应速度和网络延迟是影响总耗时的主要因素,但优化 curl_multi 的循环逻辑能够最大限度地减少客户端侧的等待时间,使并发请求尽可能快地完成。在实际应用中,还需根据具体的网络环境、API 特性以及服务器资源,对超时参数和 usleep 时间进行适当的调整和测试。
以上就是PHP curl_multi 并发请求性能优化指南的详细内容,更多请关注php中文网其它相关文章!