
本文详解如何正确提取 html 表格中带小数的数字字符串(如 “10.00”),并将其可靠转换为整数,避免直接类型转换导致的截断错误(如 `(int)”10.00″` 得到 10 而非预期的 10)。
在使用 preg_match_all() 从 HTML 中提取数值时,一个常见误区是:正则未使用捕获组,导致匹配结果包含完整 HTML 标签(如
)。此时 $match[0] 数组中存储的是带标签的字符串,而非纯数字——直接对
执行 (int) 强制转换会返回 0(因 PHP 无法解析含非数字字符的字符串为整数)。
✅ 正确做法:用捕获组精准提取纯数字
修改正则表达式,在数字部分添加括号形成捕获组(Capture Group),使目标值存入 $matches[1]:
// 示例 HTML 片段 $html = '
| 10.00 | 10.00 | 10.00 | 1.00 | 12.00 |
⚠️ 注意事项与替代方案
-
不要直接 (int) 字符串标签:$match[0][0] 是
10.00 ,(int) 结果恒为 0;
-
strip_tags() 可作为备选(但性能略低,且需额外清理空格):
$cleaned = array_map(function($s) { return (int) (float) strip_tags($s); }, $matches[0]); - 正则健壮性建议:若数字可能含千分位或负号,应升级正则(如 /[-+]?/d+(?:/./d+)?/),并配合 filter_var($str, FILTER_SANITIZE_NUMBER_FLOAT) 预处理;
- 类型安全提醒:PHP 的 (int) 截断不四舍五入(”10.99″ → 10),若需四舍五入,请用 round(floatval($str))。
✅ 总结
核心原则是:先分离(capture),再转换(cast)。通过正则捕获组确保 $matches[1] 中的数据为干净的数字字符串,再经 floatval() → (int) 或 intval() 安全转为整数。这既规避了 HTML 标签干扰,又避免了浮点字符串直接强转的陷阱,是处理此类 Web 抓取数据的标准实践。
https://www.php.cn/faq/1995407.html
