C++怎么读取CSV文件 C++解析逗号分隔数据代码实现【实战】

最稳妥的CSV解析起点是用std::getline逐行读取再手动切分;需按字符流处理、实现引号状态机、清理空格后再转换数字、跳过BOM、避免全量加载。

c++怎么读取csv文件 c++解析逗号分隔数据代码实现【实战】

std::getline 按行读取再切分是最稳妥的起点

CSV 不是格式标准,而是约定俗成;没有统一解析器能覆盖所有变体(比如带换行、引号嵌套、转义逗号)。所以别一上来就找“万能 CSV 库”,先用 C++ 标准库稳住基本盘:用 std::getline 逐行读入,再对每行做字段分割。

关键点在于:必须按字符流处理,不能直接用 operator>>,否则会跳过空字段或误吞分隔符。

  • std::ifstream 打开文件,检查 .is_open()
  • 每行用 std::getline(file, line) 获取完整字符串(保留空字段)
  • line 手动遍历,识别引号包裹段和非引号段——这是处理 "a,b",c,"d""e" 这类内容的底线能力

处理带双引号的字段必须自己写状态机

标准库不提供 CSV 解析,std::stringstreamstd::string::find 简单切分会在遇到 "Name, Inc." 时错误断成三段。必须进入字符级状态判断。

核心逻辑只有三种状态:outside_quotesinside_quotesafter_quote(用于识别两个连续双引号 "" 表示一个字面引号)。

立即学习C++免费学习笔记(深入)”;

AItools.fyi

AItools.fyi

找到让生活变得更轻松的最佳AI工具!

下载

  • 遇到 ":切换 inside_quotes / outside_quotes 状态
  • inside_quotes 中遇到 "," 不分割,遇到 "" 替换为单个 "
  • 逗号只在 outside_quotes 时作为字段分隔符

示例片段:

std::vector fields;
std::string field;
bool in_quotes = false;
for (char c : line) {
    if (c == '"') {
        in_quotes = !in_quotes;
    } else if (c == ',' && !in_quotes) {
        fields.push_back(field);
        field.clear();
    } else if (c == '"' && in_quotes) {
        // 跳过第一个 ",下一个 " 才结束;但连续 "" 需保留一个 "
        // 实际需查下一位是否也是 ",此处略去细节
    } else {
        field += c;
    }
}

std::stoi / std::stod 转数字前务必检查字段非空且无多余空格

从 CSV 读出的字段常含首尾空格(尤其 Excel 导出),直接传给 std::stoi 会抛 std::invalid_argument。别依赖异常捕获来“兜底”,先清理再转换。

  • field.find_first_not_of(" /t/r/n")find_last_not_of 截取有效范围
  • 若截取后为空字符串,不能调 std::stoi —— 即使原字段是 ,"", 也要按业务规则赋默认值(如 0 或 std::nullopt
  • std::stod 对科学计数法(1.23e-4)友好,但对 1,234.56(千位逗号)直接失败,这类需预处理移除逗号

别硬扛大文件:内存映射或流式处理比全加载更实际

几十 MB 的 CSV 文件用 std::vector<:vector>> 一次性加载,容易触发内存碎片或 OOM。C++ 没有垃圾回收,得自己控节奏。

  • 如果只需单次遍历(如统计、过滤、导出),边读边处理,不存整张表
  • 若需随机访问某几列,考虑用 mmap(Linux/macOS)或 CreateFileMapping(Windows)映射文件,配合自定义迭代器按需解析行
  • 避免把整行 std::string 存进容器后再拆——字段字符串应直接从原始内存切片(std::string_view),减少拷贝

最易被忽略的是 BOM(/xEF/xBB/xBF):UTF-8 CSV 开头若有 BOM,第一行字段会多出三个不可见字节,导致后续所有字段解析偏移。读第一行前先 peek 前三字节判断并跳过。

https://www.php.cn/faq/2027331.html

发表回复

Your email address will not be published. Required fields are marked *