CSV文件格式解析器的实现：从字符串Split到FSM

首页 > 代码库 > CSV文件格式解析器的实现：从字符串Split到FSM

CSV文件格式解析器的实现：从字符串Split到FSM

2024-07-14 23:25:20 223人阅读

　　本文乃Siliphen原创，转载请注明出处：http://blog.csdn.net/stevenkylelee/article/details/38309147

　　本文分为5小节，基本上就是我刚接触CSV文件到思考、实践做一个CSV解析器的过程的还原。希望我的思路也能带领你一步步从浅到深认识CSV文件格式。

　　1.简单的CSV解析器实现。

　　2.简单实现的CSV解析器的问题

　　3. CSV格式的定义

　　4.用FSM（有限状态机）来做CSV格式解析。

　　5.为什么使用CSV格式

　　1.简单的CSV解析器实现。

　　最近有一个需求，读取CSV格式的配置。CSV是CommaSeparated Value（逗号分隔值）的缩写，通常用文本表示数据。CSV格式数据的结构类似表格，不同的记录占用一行，一行中的字段用“，”（逗号）分隔，例如：

　　名字,职业,工作经验（年）,

　　Siliphen Lee,软件工程师（码畜）,5

　　Edison Chou,游戏服务器端主程,1

　　Deson,钢琴教师兼游戏策划,1

　　… …

　　咋一看，CSV格式比较简单。就是用行来分隔不同的记录，记录中用“，”逗号分隔不同的字段域。仅仅是这样考虑的话，那么编写CSV解析器也很简单了。就是字符串的分割而已。

　　好，下面来动手实现下这个思路。C#等语言的字符串都有Split函数，C++的标准库却连这个很常用的函数都没，C++的标准库简直是弱爆了！而就算用了boost，因为boost接近std的风格，类似Split功能的函数，使用起来也比较麻烦。

　　没办法，只好自己编写Split来实现CSV的解析了。对于CSV的解析功能，为了实现“组件化”，“复用”的理想，可以单独写一个Csv类，封装一些相关操作。以后在别的工程项目中，也可以直接把这个类拿过去用。

　　CSV类，三下五除二，就编写好了。代码如下：

　　头文件

#pragma once

#include <vector>
#include <string>
using namespace  std;

class Csv
{
public:
	Csv();
	~Csv();

public:

	// 载入一个CSV文件
	void Load(const string& strFileName);

	// 从字符串从解析
	void Parse(const string&  strText);

public :

	/*
		分割字符串
		str 要分隔的字符串
		seperator 分隔符
		Ret 分割后的结果
	*/
	static void Split(const string &str, const string& seperator, vector< string >& Ret);

	/*
		读取整个文件的数据
	*/
	static void ReadAll(const string& strFileName , string& Data );

public :

	vector< vector< string > >& GetGridData(){ return m_GridData; }

private : 

	// 原始表格数据
	vector< vector< string > > m_GridData;

};

　　实现文件：

#include "Csv.h"
#include <stdio.h>

Csv::Csv()
{
}

Csv::~Csv()
{
}

void Csv::ReadAll(const string& strFileName, string& Data)
{
	// 读取文件数据
	FILE* pFile = fopen(strFileName.c_str(), "rb");
	if (pFile == 0)
	{
		return;
	}

	fseek(pFile, 0, SEEK_END);
	long len = ftell(pFile);

	char *pBuffer = new char[len + 1];

	fseek(pFile, 0, SEEK_SET);
	fread(pBuffer, 1, len, pFile);
	fclose(pFile);

	pBuffer[len] = 0;
	Data.assign(pBuffer, len );

	delete[] pBuffer;

}

void Csv::Load(const string& strFileName)
{
	string Data; 
	ReadAll(strFileName, Data); 
	Parse(Data );
}

void Csv::Parse(const string& strText)
{
	// 清除之前的数据
	m_GridData.clear();

	// 分出行，分出字段。
	vector< string > ret;
	Split(strText, "\r\n", ret);
	for (size_t i = 0; i < ret.size(); ++i)
	{
		vector< string > Fields;
		Split(ret[i], ",", Fields);
		m_GridData.push_back(Fields);
	}

}

void Csv::Split(const string &str, const string& seperator, vector< string >& Ret)
{
	Ret.clear();

	size_t nStartPosFound = str.find(seperator, 0);
	size_t nFieldStart = 0;
	for (; nStartPosFound != -1; nStartPosFound = str.find(seperator, nStartPosFound))
	{
		string strSub = str.substr(nFieldStart, nStartPosFound - nFieldStart);
		nStartPosFound = nStartPosFound + seperator.size();
		nFieldStart = nStartPosFound;

		Ret.push_back(strSub);
	}

	// 加入最后一个字段
	if (nFieldStart < str.size())
	{
		string strSub = str.substr(nFieldStart, str.size() - nFieldStart);
		Ret.push_back(strSub);
	}

}

　　对代码做一些简要说明。设计Csv类首先考虑的就是“独立性”。Csv类不应该耦合（依赖）任何其他库，比如说：尽量避免使用Cocos2d-x，QT里面的函数。Cocos2d-x有跨平台的文件读取方法，QT有字符串的split函数。如果用了这些库的现成机制，会导致类的通用性下降。比如，在另一个非Cocos2d-x，非QT的项目中，就不能直接用了。

　　同样地，从可移植性考虑。用VS编写读取文件，也不应该使用CreateFile, ReadFile等Win32 Api。fopen虽然不太好用，但由于其是C语言标准库的，移植性好，故用之。

　　这里有一个问题需要注意下，用VS2013编辑和编译的话，可能会对fopen函数提示有错误。如下：

　　这句英文大概是说：“fopen函数或者变量可能是不安全的。考虑使用fopen_s替代。要屏蔽这个错误，请使用_CRT_SECURE_NO_WARNINGS。”

　　_CRT_SECURE_NO_WARNINGS怎样用呢？简单，在“项目属性 -> 配置属性 -> C/C++ -> 命令行 -> 其他选择”上，添加“/D _CRT_SECURE_NO_WARNING”。如下图：

　　添加完后，重新编译。这样，我们的简单的CSV解析器就写好了。运行调试一下，看看是否运行正确

　　OK，没问题。解析的结果，我们放在一个vector< vector< string > > 类型的数据结构中。这个数据结构比较灵活，可以模拟表示一个表格。实际上，vector< vector< string > > 也可以表示可动态调整大小的二维数组。

　　2.简单实现的CSV解析器的问题

　　之前用字符串处理方法split做的CSV解析器有问题吗？对于简单的数据，没问题。但仔细想下就会发现，字段之间用“,”英文逗号分隔，如果字段数据本身包含了逗号，怎么办？我们用Excel做下实验，看看Excel导出的CSV格式表格是怎样的。

　　实验结果如下：

　　从以上结果可以看到，对于包含了“,”字段分隔符的字段，是用“”””双引号把这个字段包围起来。但如果字段数据本身也包含了“””引号，又怎么办呢？继续做实验，如下图

　　实验发现，如果字段数据本身存在“””引号，那么引号的前面也会放一个引号，前置的引号相当于C语言的字符串的转义字符。

　　如果用一个字段表示一篇文章，有分段换行。那又是一个什么情况？做实验看看，实验结果如下：

　　复制一段文章或者是有段落的一段文本，然后粘贴到Excel的一个字段中，最后Excel另存为CSV格式文件。用记事本打开那个CSV格式文件。发现用记事本看不到换行，这是什么情况？用UltraEdit查看下二进制数据

　　发现，回车换行（/r/n）,会被Excel替换成/n换行。而用记事本程序打开是看不到/n换行效果的。

　　如果用记事本程序编辑CSV文件，敲入回车换行（/r/n），然后用Excel打开，会怎样？如下图：

　　可以看到用记事本程序编辑CSV文件，人工按下回车键，会键入回车换行（/r/n）数据。用Excel打开的话，也显示了分行的效果。

　　做了一些实验得出的结论是：CSV一个字段的数据是可以表示存在“,”字段分隔符的。如果有逗号字段分隔符存在，那么整个字段就会用双引号包围起来。如果字段数据本身有引号，那么会在之前放一个前置的引号表示转义，并且该字段也会用双引号包围起来。用双引号包围起来的字段数据里面，也可以有回车换行数据。

　　这样，问题来了。我们用回车换行来分割出行，再用逗号分割出一行中不同的字段。这种简单的方法无法区分一个逗号是字段本身的数据，还是用来作为字段分隔符的。也无法区分一个回车换行，是字段里面的数据，还是用来分隔行的。

　　3. CSV格式的定义

　　上面是用Excel另存为CSV文件格式做实验来摸索CSV格式和一些显示特性。其实CSV是有格式规范的。

　　关于CSV格式的定义，可以参考这里：一篇百度文档的CSV格式定义，IETF上的CSV格式定义的文档

　　4.用FSM（有限状态机）来做CSV格式解析。

　　了解CSV格式的定义后，我们知道，要写一个完善的CSV解析器，不能简单地用字符串的Split方法了。

　　我们的目标是：写一个CSV类，能正确解析Excel导出的任何CSV文件！也许有人会认为，用正则表达式可以搞定。用正则有几个问题，第一，C++的正则表达式通常都依赖于一些第三方库，QT，Boost等，C++11的正则也不是在所有的编译器上都实现了，这很大地影响了我们的CSV类通用性。第二，对于语法格式分析，正则不是万能的，至少文章作者本人是很难写出能解析CSV的正则。

　　这里介绍一个很强大的方法：FSM（Finite State Machine，有限状态机）。我第一次接触FSM是在罗森(KennethH.Rosen)著的《离散数学及其应用》。关于FSM的概念，可以百度下，看看百度百科的解释。也可以看看维基百科的解释：http://zh.wikipedia.org/wiki/%E6%9C%89%E9%99%90%E7%8A%B6%E6%80%81%E6%9C%BA

　　FSM的应用很广，电路、游戏开发和编译原理等都会涉及。这里，我们就使用FSM来做CSV的解析。使用FSM一般是先画状态图，然后编码实现，调试，修改，反复这个过程。我画的CSV解析FSM状态图如下：

　　从上图，可以看到FSM还可以做语法检查。实际上《编译原理》中的词法分析的扫描器，通常就是基于FSM。这个FSM要解析Excel导出的任何CSV格式文件应该是足够了。为了简化实现，不考虑一些语法容错。

　　由于代码较多。我就不贴完整实现代码了。用我们之前实现的简单Csv类来改，就是砍掉Split函数，然后，重写Parse函数。

　　大概步骤是：

　　先定义状态

	// 定义状态
	enum StateType
	{
		// 新字段开始
		NewFieldStart ,

		// 非引号字段
		NonQuotesField ,

		// 引号字段
		QuotesField ,

		// 字段分隔
		FieldSeparator ,

		// 引号字段中的引号
		QuoteInQuotesField ,

		// 行分隔符字符1，回车
		RowSeparator ,

		// 语法错误
		Error ,
	};

　　然后，写一个for循环，从头到尾遍历CSV文件数据，把遍历到的字符“喂给”FSM。FSM用一个Switch-Case语句实现。遍历结束后，再判断下状态，做一些相应处理。算法截图如下：

　　做下测试，读取效果如何。先用Excel构造一个复杂的表格，字段里面包含“, 半角逗号”，““ 引号”，“\r\n 回车换行符”。如下所示：

　　导出CSV文件。用Csv类读一下。结果如下图：

　　OK。大功告成！一个相对完善的Csv类完成了！我们可是用编译原理涉及的技术搞定的哦，赞！

　　我的Csv类完整实现（包括整个VS工程和测试CSV文件）可以在这里下载到：http://download.csdn.net/detail/stevenkylelee/7697315

　　如果发现我的类读取Excel导出的CSV文件有什么bug。请联系我。我改！：）

　　5.为什么使用CSV格式

　　我思考一段时间，总结的理由有如下几点：

　　1.CSV文件格式占用空间比较小，是文本文件。

　　2.CSV文件可以用记事本打开，编辑修改方便。同时也可以用Excel打开。

　　3.游戏项目中，策划通常喜欢用Excel做数值和配置。Excel可以直接另存为CSV文件。

　　4.配置也可以用xml。Excel同样可以导出xml文件格式。xml不错，但C++的标准库没有xml的读取方法。通常C++项目读xml需要依赖第三方库。例如：TinyXml之类的。

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > CSV文件格式解析器的实现：从字符串Split到FSM

CSV文件格式解析器的实现：从字符串Split到FSM

看完仍有疑问？有类似问题直接问程序猿