jcSQL词法分析器对字符串token的解析

首页 > 代码库 > jcSQL词法分析器对字符串token的解析

jcSQL词法分析器对字符串token的解析

2024-07-16 18:59:52 220人阅读

上星期写完词法分析器的时候，曾遇上一个无关紧要却X疼的问题。毕竟是第一次完整地写整个语言的编译器（暂且这么叫着吧，解释器更靠谱），由于经验不足，在字符串解析这一块驻足了两天才解决掉，这里记录下来供以后参考。哦对了，之所以想自己手写词法分析器，并不是我不知道有自动工具可以自动生成，而是我不会用，嗯，果然高冷。

词法分析器的作用简而言之就是将语言分割成一个一个独立的词法单元（单词），并赋予一定的类型。(如果不了解其作用，建议参考词法分析)

例如:

a = 3 ;

我们就可以将其分课程一个个有意义的单元，并赋予类型:

<=,NE>

<3,NUM>

<;,SEMI>

和就是分割好的单词序列。在一般情况下，一门语言的词法分析器总会遇上要分析字符串成分的情况，比如表达式

val = "xxx" 或者 val = ‘xxx‘

我并未参考其他语言是如何分析，仅凭猜测，自认为应该解析成如下形式：

<=,NE>

<‘/",SINGLEQUOTE/DOUBLEQUOTE>

当然也许这不是一个好的类型单词分配方法，但起码不会是一个错误方法吧，到现在，语法分析阶段工作的还挺好的，也许会有更好的办法，还需要多参考前辈们的。

这个时候问题就是，当遇上这样的句子时：

a = "xxxxxxx" b="ssssssss"

因为在一个SQL语句中不可能一辈子咱们就出现一个字符串单元，所以这个怎么解析当时很费了点脑筋。如果没注意，就会解析成

<=,NE>

<",DOUBLE_QUOTE>

<",DOUBLE_QUOTE>

<",DOUBLE_QUOTE>

<",DOUBLE_QUOTE>

如果不加以控制，这显然是错的，因为b=在这里显然是两个单词，而不是STRING。于是我开始寻觅各种办法解决这个问题：第一个想到的是用bool类型来控制，判断引号出现的单复数，如果是true则为复数，即收尾的符号，这样这个问题就解决了。但是，脑脑子里思考问题的解决方案永远是奔向理想目标中的其中一条道路，很多岔路是动手的时候出现的，于是真的出现问题了,参看下面伪代码，其中flag1与2分别代表单引号与双引号的判断flag。

get_next_token() { while (p != val.size()) { if (flag) { std::string v=get_string(); continue; } switch (c) { case ‘\‘‘: if (flag==true)//the begin quote { flag = false; } else if (flag==false) { flag = true; } consume(); break; default: consume(); } } }
switch语句内的代码逻辑是没有任何问题的，问题出在，取字符串单词的判断上：当下一个单词是字符串时，取出之后便会执行continue，这时flag 是无法被改变状态的，所以当下一次取单词进入函数时又会进入开始的if逻辑，当时我在这种解决方法上进行了很多次的修改，均告失败，问题重重，于是只得另寻方案，每当这种时候都恨自己脑瓜不够机灵，想不到优雅的办法解决这种问题，当然了也许是条件限制，导致自己没法往优雅的解决方法上想，:p，我倾向于后者。后来也试过用用计数器的方式，也是失败了，掰着掰着就醉了，好一个，众人皆醒我独醉，醉完媳妇旁撅着睡。（诶？！我不是在寝室吗？）
好在把各种烂方法使了过后，想到了一个最终解决方法，使用了一个栈，当栈里保存着有引号的时候（当前符号落到引号上时在switch内的每个case压栈，如代码所示。），说明这一轮要取的单词属于字符串，当当前字符又落到引号上时，判断栈里是否有引号，如果有，则说明是收尾引号，这时清空栈。
//由于get_token函数过长，此处仅贴上部分片段 if (!quote_stack.empty())//string_identifier.first stores the quotes { if (quote_stack.top() == c) { consume(); char temp = quote_stack.top(); quote_stack.pop(); if (temp==‘\‘‘) { return token(tag::SINGLEQUOTE, "‘"); } return token(tag::DOUBLEQUOTE, "\""); } else { std::string id = STRINGS_WITH_TERMINATION(quote_stack.top()).c_str(); token tk(tag::STRING, id.c_str()); if (!id.empty()) { return token(tk); } } } //switch内部： case ‘\‘‘: consume(); quote_stack.push(‘\‘‘); return token(tag::SINGLEQUOTE, "‘"); case ‘"‘: consume(); quote_stack.push(‘"‘); return token(tag::DOUBLEQUOTE, "\"");
这个方法目前运行良好，由于任务的特殊性，栈内最多会容纳两个字符，由于stack内部由deque实现（C++ STL），空间上多少浪费了一点，不过这个方法将任务简化，并且也挺好理解，同时相比flag的方法，flag更容易有在其他函数中无意赋值导致全局变量污染问题的风险。当然了，您可以将其替换为一个两个字节的数组，抽象成一个类来解决，我这里暂时先不做优化。
其实这也只是一个权宜之计，我相信一定有优雅且更加高效的设计或者方法，期待可以学到。

style blog http color 使用

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

看完仍有疑问？有类似问题直接问程序猿

投诉/举报

您的姓名

反馈内容

相关代码解决方案


词法分析器

词法分析器

词法分析器

词法分析器

词法分析器

词法分析器

词法分析器

简易词法分析器

实验词法分析器

词法分析器报告

简易词法分析器

java 词法分析器

词法分析器的作用

词法分析器:代码注释

对词法分析器的了解

解释器（一）词法分析器

2016.9.30 编译原理-词法分析器

词法分析器实验报告

词法分析器实验报告

实验一、词法分析器实验

C语言词法分析器

Java语言词法分析器

【词法分析器】编译原理作业

词法分析器 /c++实现

实验一、词法分析器实验

简单词法分析器实现

生成Token字符串

词法分析器--DFA（c++实现）
JQuery选择器Sizzle词法分析器的理解

当日更新

批量下载中国气象科学数据共

常见移动web注意点

Tomcat总结

平衡二叉树(AVL)

Android：制作Update.zip升级

前端开发工程师 - 02.JavaSc

LeetCode Remove Nth Node F

CodeForce 508C Anya and Gh

第一讲递归

【数值分析】复化积分公式

联系
我们

回到
顶部