词法分析器的构成(含源代码)

article/2025/11/1 10:17:05

标题:词法分析器

本人最近在学习编译原理,刚刚学到词法分析器,心想着挺好玩,就想着自己写一个,奈何一没有系统的学过c语言,只是粗略的看过一遍K&R的c语言书,所以水平尚浅,代码有许多冗长之处,二是刚学这一块,有些概念还不太清楚,本着练习c语言的目的将词法分析器写完。大家借鉴借鉴就好,如果有需要的小伙伴可自取自行修改。我看的编译原理是鲁斌的一本编译原理与实践(不建议小伙伴看,这本书代码很不全,而且有错误,但是本校还没发书,所以只好用这本),编写的是L语言----一种类Pascal语言。

废话不多说,上正题:
词法分析器,又称为扫描器,功能是输入源程序,进行词法分析,输出单词符号。

对于一个词法分析器来说,应该执行的功能为:
1:对源程序进行预处理工作,包括滤掉源程序中的无用程序,如注释,空格,换行,等不影响程序语法,语义的结构。(至少可以滤掉空格,其他可自行添加)
2:对源程序出现的非法字符进行检查
3:可建立符号表,用于记录源程序中的标识符和常数的信息,包括名称,各种属性等。

词法分析器主要依据语法规则进行工作,本篇用到的所有词法皆在L_Word.txt文件里,下面以图片形式给出。
描述词法分析器规则的有效工具主要是正规式和有限自动机(本人还没学到这,但写词法分析器也没用到)

实现的功能:
能够识别关键字,标识符,整数,浮点数,指数,一些运算符和界符。
能够对输入的源代码进行分析,输出各种标识符,及其他们的种别编码,及其在符号表中的地址(本篇输出的都是零,也就是word.addr,没有实现,小伙伴可自行实现)
注:
1:没有实现过滤注释的功能。
2:没有实现符号表
3:没有实现字符类型,布尔类型

另外注明一点:宏定义#define MAXWORD 100 处,如果将MAXWORD定义的小了,可能经词法分析器输出的要比源程序的词少,具体原因没有找(懒)

各种文件如下:

L_Word.txt文件如下:
在这里插入图片描述

代码部分

代码分为三部分
第一部分为头文件
L_h文件,内有要用到的库函数及宏

#pragma once
#include <stdio.h>
#include <ctype.h>
#include <string.h>#define MAXWORD 100    //定义最长的标识符不可以超过100/*token结构,词法分析器识别出的信息用此结构标识*/
typedef struct WordToken {int code;     //单词种别编码,L语言编码在L_Word.txt文件中int addr;     //单词在符号表中登记项的指针,仅用于标识符和常数,其他情况下是零
}WT;/*L语言关键字*/
extern char Keywordtab[27][10];void sort(char ch[]);int reserve(char str[]);

代码所用关键字为Key.cpp,内含关键字和三种运算符and or not

#pragma once
char Keywordtab[27][10] = { "begin","end", "integer", "char", "bool","real","input", "output",
"program","read","write","for", "to", "while", "do", "repeat","until", "if", "then", "else",
"true","false","var","const","and","or","not" };

主要代码文件为sort.cpp

#pragma once
#include "L.h"/*用来识别不同类型单词符号*/
void sort(char ch[]) {int reserve(char str[]);int p = 0;while (ch[p] != '\0') {while (ch[p] == ' ')p++;int i = 0;char str[MAXWORD] = {};WT word;word.addr = 0;if (isalpha(ch[p])) {      //如果首字符是字母WT word;word.addr = 0;do {str[i++] = ch[p++];} while (isalpha(ch[p]) || isdigit(ch[p]));str[i] = '\0';word.code = reserve(str);    //是-1没找到关键字if (word.code == -1)word.code = 39;printf("%s\t%d\t%d\n", str, word.code, word.addr);}else if (isdigit(ch[p])) {word.addr = 0;do {str[i++] = ch[p++];} while (isdigit(ch[p]));   //出循环时,ch[p]已不是数字if (ch[p] == '.') {          //判断如12.7型的浮点数str[i] = ch[p];i++, p++;while (isdigit(ch[p]))str[i++] = ch[p++];str[i] = '\0';word.code = 41;printf("%s\t%d\t%d\n", str, word.code, word.addr);}else if (ch[p] == 'e') {str[i] = ch[p];i++, p++;if (ch[p] == '-') {           //判断例如12e-7型的指数str[i] = ch[p];i++, p++;while (isdigit(ch[p]))str[i++] = ch[p++];str[p] = '\0';word.code = 41;printf("%s\t%d\t%d\n", str, word.code, word.addr);}else                         //判断例如2e3型的指数{while (isdigit(ch[p]))str[i++] = ch[p++];str[i] = '\0';word.code = 41;printf("%s\t%d\t%d\n", str, word.code, word.addr);}}else                             //判断例如148型的整数{str[i] = '\0';word.code = 40;printf("%s\t%d\t%d\n", str, word.code, word.addr);}}/*有争议的字符*/else if (ch[p] == '/'){if (ch[p + 1] == '*') {str[0] = ch[p];str[1] = ch[p+1];str[2] = '\0';word.code = 53;printf("%s\t%d\t%d\n", str, word.code, word.addr);p = p + 2;}else{str[0] = ch[p];str[1] = '\0';word.code = 28;printf("%s\t%d\t%d\n", str, word.code, word.addr);p++;}}else if (ch[p] == '*'){if (ch[p + 1] == '/') {str[0] = ch[p];str[1] = ch[p+1];str[2] = '\0';word.code = 54;printf("%s\t%d\t%d\n", str, word.code, word.addr);p = p + 2;}else{str[0] = ch[p];str[1] = '\0';word.code = 34;printf("%s\t%d\t%d\n", str, word.code, word.addr);p++;}}else if (ch[p] == '<'){if (ch[p + 1] == '=') {str[0] = ch[p];str[1] = ch[p+1];str[2] = '\0';word.code = 35;printf("%s\t%d\t%d\n", str, word.code, word.addr);p = p + 2;}else if (ch[p + 1] == '>'){str[0] = ch[p];str[1] = ch[p+1];str[2] = '\0';word.code = 37;printf("%s\t%d\t%d\n", str, word.code, word.addr);p = p + 2;}else{str[0] = ch[p];str[1] = '\0';word.code = 30;printf("%s\t%d\t%d\n", str, word.code, word.addr);p++;}}else if (ch[p] == '>'){if (ch[p + 1] == '=') {str[0] = ch[p];str[1] = ch[p+1];str[2] = '\0';word.code = 36;printf("%s\t%d\t%d\n", str, word.code, word.addr);p = p + 2;}else{str[0] = ch[p];str[1] = '\0';word.code = 31;printf("%s\t%d\t%d\n", str, word.code, word.addr);p++;}}else if (ch[p] == ':'){if (ch[p + 1] == '=') {str[0] = ch[p];str[1] = ch[p+1];str[2] = '\0';word.code = 38;printf("%s\t%d\t%d\n", str, word.code, word.addr);p = p + 2;}else{word.code = 46;printf("%c\t%d\t%d\n", ch[p], word.code, word.addr);p++;}}/*无争议字符*/else {switch (ch[p]){case '=': word.code = 29; str[0] = ch[p]; str[1] = '\0'; break;case '-': word.code = 33; str[0] = ch[p]; str[1] = '\0'; break;case '+': word.code = 32; str[0] = ch[p]; str[1] = '\0'; break;case '(': word.code = 44; str[0] = ch[p]; str[1] = '\0'; break;case ')': word.code = 45; str[0] = ch[p]; str[1] = '\0'; break;case '.': word.code = 47; str[0] = ch[p]; str[1] = '\0'; break;case ';': word.code = 48; str[0] = ch[p]; str[1] = '\0'; break;case ',': word.code = 49; str[0] = ch[p]; str[1] = '\0'; break;case '_': word.code = 50; str[0] = ch[p]; str[1] = '\0'; break;case '\'': word.code = 51; str[0] = ch[p]; str[1] = '\0'; break;case '\"': word.code = 52; str[0] = ch[p]; str[1] = '\0'; break;}printf("%s\t%d\t%d\n", str, word.code, word.addr);p++;}}
}
int reserve(char str[])
{for (int i = 0; i<27; i++){if (strcmp(str, Keywordtab[i]) == 0){return i + 1;	//关键字的种别码为i+1 的值 }}return -1;                           //没有找到关键字
}

主函数如下:

#pragma once
#include "L.h"
int main()
{char ch[] = "var x , y , z : real;  x := y + z * 60;";printf("经词法分析器分析结果后如下:\n");sort(ch);
}

结果如下:
在这里插入图片描述
上述代码在vs2015上运行
本人写博客目的只为加深对词法分析器的理解,代码或有错误,感兴趣的小伙伴可自行下载。

转载请注明出处:https://blog.csdn.net/m0_46311920/article/details/114664047


http://chatgpt.dhexx.cn/article/UxAjlVVH.shtml

相关文章

java实现词法分析器

实现词法分析器 实验内容要求 一、实验目的 加深对词法分析器的工作过程的理解&#xff1b;加强对词法分析方法的掌握&#xff1b;能够采用一种编程 语言实现简单的词法分析程序&#xff1b;能够使用自己编写的分析程序对简单的程序段进行词法分 析。 二、实验内容 自定义一…

python实现词法分析器

基于python3 实现一个简单的词法分析器。 主要使用的库&#xff1a;正则表达式、tkinter 识别关键字&#xff0c;标识符&#xff0c;运算符&#xff0c;分界符&#xff0c;数字&#xff08;整数和浮点数&#xff09; 当以数字开头时报错&#xff0c;标识符超过8个字符长度时报…

词法分析器设计与实现

开篇 编译&#xff0c;简单的说&#xff0c;就是把源程序转换为可执行程序。从hello world 说程序运行机制 里面简单的说明了程序运行的过程&#xff0c;以及一个程序是如何一步步变成可执行文件的。在这个过程中&#xff0c;编译器做了很多重要的工作。对底层该兴趣的我&…

[编译原理]词法分析器的分析与实现

词法分析概述&#xff1a; 编译程序要对高级语言编写的源程序进行分析和合成&#xff0c;生成目标程序。词法分析是对源程序进行的首次分析&#xff0c;实现词法分析的程序成为词法分析程序(或词法分析器)&#xff0c;也称扫描器。像用自然语言书写的文章一样&#xff0c;源程…

词法分析器【编译原理】

实验内容&#xff1a; 基于TEST语言设计相应的词法输入器并且输出二元组 实验目的&#xff1a; 1、理解词法分析器的基本功能 2、理解简单的词法规则的描述方法 3、理解状态转化图及其实现 4、能够编写简单的词法分析器 实验原理&#xff1a; 根据DFA构造词法分析程序 1、…

词法分析器的实现

原文地址为&#xff1a; 词法分析器的实现 开篇 编译&#xff0c;简单的说&#xff0c;就是把源程序转换为可执行程序。从hello world 说程序运行机制 里面简单的说明了程序运行的过程&#xff0c;以及一个程序是如何一步步变成可执行文件的。在这个过程中&#xff0c;编译器…

词法分析器原理简介

词法分析器原理简介 词法分析器读取有字符串组成的输入流&#xff0c;并产生包含单词的输出流&#xff0c;每个单词都标记了其语法范畴&#xff08;syntactic category&#xff09;或类型&#xff0c;等效于英文单词的词类。为了完成这种聚集和分类操作&#xff0c;词法分析器…

编译原理——词法分析器 C++实现

词法分析器 实验目的单词分类表单词结构描述单词状态转换图算法描述程序结构源代码实验结果 实验目的 对C语言的一个子集设计并实现一个简单的词法分析器&#xff0c;掌握利用状态转换图设计词法分析器的基本方法。利用该词法分析器完成对源程序字符串的词法分析。培养团队合作…

词法分析器(纯c语言)

一、原文章&#xff1a;词法分析器&#xff08;分析C语言&#xff09; 二、该词法分析器种别码表 三、词法分析器实现思路描述&#xff1a; 1.首先用一个数组来存储txt文本中非空白字符&#xff0c;并将存储字符的个数记录下来。 2.用scan()函数扫描数组中的字符&#xff0c…

编译原理--词法分析器(python语言实现)

词法分析器 最近在学习编译原理。由于实验要求有词法分析器&#xff0c;这里我就先记录一下词法分析器实现过程以及具体思路。 目标语言 此处我选择的目标语言是c语言的子集来进行词法分析。 实现语言 此处我选用的语言是python&#xff0c;主要还是考虑到python的数据结构…

词法分析器--C实现

实验目的&#xff1a; 编制一个读单词过程&#xff0c;从输入的源程序中&#xff0c;识别出各个具有独立意义的单词&#xff0c;即基本保留字、标识符、常数、运算符、分隔符五大类(可自主添加类别)。并依次输出各个单词的内部编码及单词符号自身值。 程序及其子程序&#xff1…

c语言实现词法分析器

词法分析器的功能:输入源程序&#xff0c;输出单词字符。单词字符一般可以分为下面五种。 &#xff08;1&#xff09;关键字 是由程序语言定义的具有固定意义的标识符。有时称这些标识符为保留字或者基本字。例如c语言中的int,char,define,strcut,double,if,else.等等 &#xf…

词法分析器(分析C语言)

问题描述&#xff1a; 用C或C语言编写一个简单的词法分析程序&#xff0c;扫描C语言小子集的源程序&#xff0c;根据给定的词法规则&#xff0c;识别单词&#xff0c;填写相应的表。如果产生词法错误&#xff0c;则显示错误信息、位置&#xff0c;并试图从错误中恢复。简单的恢…

词法分析器(c++)

前景提示&#xff1a; 个人觉得单纯是用来完成实验报告的话还行&#xff0c;但仅做参考&#xff0c;因为本人的编程水平有限&#xff0c;怕误人子弟。 本次代码支持以下操作&#xff1a; 单行注释 多行注释 文件形式输入 种别码可以在文件中自由修改 单词字符串识别支持…

词法分析——词法分析器的作用

目录 综述 正文 1 词法分析与语法分析 2 词法单元、模式和词素 3 词法单元的属性 4 词法错误 综述 词法分析是编译的第一阶段。词法分析器的主要作用是读入源程序的输入字符、将它们组成词素&#xff0c;生成并输出一个词法单元序列&#xff0c;每个词法单元对应一个词素。…

词法分析器

词法分析&#xff08;Lexical Analysis&#xff09; 词法分析器在英文中一般叫做 Tokenizer。 有一个计算模型&#xff0c;叫做有限自动机&#xff08;Finite-state Automaton&#xff0c;FSA&#xff09;&#xff0c;或者叫做有限状态自动机&#xff08;Finite-state Machin…

编译原理——词法分析器

1 概述 设计、编制并调试一个简单的C语言词法分析程序&#xff0c;掌握利用状态转换图设计词法分析器的基本方法&#xff0c;利用该词法分析器完成对源程序字符串的词法分析。通过对该词法分析器的设计&#xff0c;加深对词法分析原理、状态转换图等编译原理知识的理解。 2 使…

编译原理词法分析器(C/C++)

前言&思路 词法分析器不用多说&#xff0c;一开始我还不知道是什么样的&#xff0c;看了下别人的博客&#xff0c;再看看书&#xff0c;原来是输出二元组&#xff0c;这不就是字符串操作嘛。然后细看几篇博客&#xff0c;发现大都是用暴力判断来写的。我对代码重复性比较高…

【编译原理】词法分析(C/C++源代码+实验报告)

文章目录 1 实验目的和内容1.1实验目的1.2实验内容 2 设计思想2.1单词种类及其正规式2.2 根据正规式构造NFA2.3根据NFA构造DFA2.3.1根据替换规则构造未化简的DFA2.3.2最小化DFA 3算法流程4源程序5调试数据5.1 测试样例一5.2 测试样例二5.3 测试样例三 6实验调试情况及体会6.1 实…

session 每次请求都会产生新的sessionID

问题描述&#xff1a; 最近在写一个项目时&#xff0c;在运行项目后每刷新一次都会产生一个新的Session ID&#xff0c;导致无法取值。 原因分析&#xff1a; 搞了很久发现是URL路径的问题&#xff0c;把http://localhost:8080//的双斜杠该为单斜杠就行了 解决方案&#xf…