词法分析器【编译原理】

article/2025/11/1 10:25:18

实验内容:

基于TEST语言设计相应的词法输入器并且输出二元组

实验目的:

 1、理解词法分析器的基本功能

 2、理解简单的词法规则的描述方法

 3、理解状态转化图及其实现

 4、能够编写简单的词法分析器

实验原理:

根据DFA构造词法分析程序

1、直接编程的词法分析程序

(1)、适合词法比较简单的、手工实现、比较精简,分析速度快

(2)、与要识别的语言单词密切相关,一旦词法规则发生变化,则要重新编写程序

(3)、通过程序的控制流转移来完成对输入字符的响应,程序中的每一条语句都要与识别的单词符号有关

 2、表驱动的词法分析程序

(1)、一种典型的数据与操作的分离的工作模式,控制程序不变;不同的词法分析器实质上是构造不同的分析表

(2)、为词法分析程序的自动生成提供了极大的方便

(3)、程序比较复杂,分析速度慢一些

实验内容:

1、输入:源文件字符序列s

   任务:识别单词符号;滤过空格、注释等

   依据:TEST语言的词法规则

   输出:字符流(单词)、错误信息

2、本实验我设计的词法分析器

(1)、能够识别出保留字、标识符、单分符、双分符、常量

(2)、利用表驱动法识别注释并且滤过注释

(3)、错误处理,能够连续查错并且能够指明错误类型

主要实现了三种错误的查找:

非法字符(@、¥等)

大小写敏感问题(保留字大小写错误例如INT a 但对于int INT不报错,只会识别为标识符)

标识符以数字开头的错误

实验代码:

#define _CRT_SECURE_NO_WARNINGS
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#define NUM 15
using namespace std;FILE* f_in;
FILE* f_out;
char f1_name[100];
char f2_name[100];
char keyWord[NUM][20] = { "default","if", "else","for","while","do","int","read","write","float","switch","case","break","function","call" };   //保留字
char token[15];				//识别的单词
char token_num;				//记录单词长度
char ch;					//单词的首个字符
int row;					//记录程序编译行数
char tmp[15];
int flag1;					//用于标志换行后可能产生错误
int flag2;					//区别标识符和保留字大小写敏感
int flag3;
int flag = 0;
char(*keyword)[20] = keyWord;
char* string;void compile();
int compile_word();
void sort(char(*a)[20]);
int binary_S(char(*a)[20], char* string);int main() {sort(keyWord);printf("请输入要编译的文件名字:");scanf("%s", f1_name);f_in = fopen(f1_name, "r");printf("请输入要将编译结果存入的文件名字:");scanf("%s", f2_name);f_out = fopen(f2_name, "w");compile();fclose(f_in);fclose(f_out);system("pause");return 0;
}//用冒泡法将保留字数组排序(根据ASCII码)
void sort(char(*a)[20]) {char tmp[20];for (int i = 0;i < NUM;i++) {for (int j = i + 1;j < NUM;j++) {if (strcmp(a[j], a[i]) < 0) {for (int k = 0;k < 20;k++) {tmp[k] = a[i][k];a[i][k] = a[j][k];a[j][k] = tmp[k];}}}}
}
//对数组进行折半查找
int binary_S(char(*a)[20], char* string) {int low = 0;int high = NUM-1;while (low <= high) {int middle = (low + high) / 2;if (strcmp(string, a[middle]) == 0) {return middle;}else if (strcmp(string, a[middle]) < 0) {high = middle - 1;}else {low = middle + 1;}}return -1;
}void bqd() {//状态2switch (ch){case '*': ch = getc(f_in);					//转到状态3//状态3s3:while (ch != '*') {ch = getc(f_in);if (ch == EOF) {printf("ERROR: the error place is in the %d row.注释错误\n", row + 1);return;}}		                                    //状态3循环switch (ch){case '*':ch = getc(f_in);				//转到状态4//状态4while (ch == '*') ch = getc(f_in);  //状态4循环switch (ch){case '/':ch = getc(f_in);		printf("注释正确\n");fprintf(f_out, "注释正确\n");return;							//状态5结束default:goto s3;					//转到状态3}default: goto end;}default:printf("单分符\t%s\n", token);			//状态6goto end;}end:return;
}
int compile_word() {//将识别的单词数组初始化for (int i = 0;i < 15;i++) {token[i] = NULL;tmp[i] = NULL;}token_num = 0;flag1 = 0;flag2 = 0;flag3 = 0;//处理空格while ((ch == ' ') || (ch == '\n')) {if (ch == '\n') {row++;flag1 = 1;}				ch = getc(f_in);}if ((ch >= 'a' && ch <= 'z') || (ch >= 'A' && ch <= 'Z')) {				//输入可能是标识符或者保留字//组成一个单词while ((ch >= 'a' && ch <= 'z') || (ch >= 'A' && ch <= 'Z') || (ch >= '0' && ch <= '9')) {token[token_num++] = ch;ch = getc(f_in);}if (flag1 == 1) {for (int j = 0;j < token_num;j++) {tmp[j] = token[j];if (token[j] >= 'A' && token[j] <= 'Z') {tmp[j] = tmp[j] + 32;								    //大写转换为小写flag2 = 1;}}}token[token_num++] = '\0';//比对保留字for (int i = 0;i < NUM;i++) {if (flag1 == 1 && flag2 == 1) {if (binary_S(keyWord, tmp)!=-1) {return -3;												//大小写敏感}}if (binary_S(keyWord, token)!=-1) {							        //匹配到某个保留字return 1;}}return 2;															//关键字ID}else if (ch >= '0' && ch <= '9') {										//输入的是常量NUM(整型)//组成一个单词while ((ch >= '0' && ch <= '9') || ch == '.') {                                 //扩展为浮点型token[token_num++] = ch;ch = getc(f_in);while((ch >= 'a' && ch <= 'z') || (ch >= 'A' && ch <= 'Z')) {ch = getc(f_in);flag3 = 1;}}if (flag3 != 1) {return 3;}                                                                   //常量else return -4;														//非法单词}else {																	//输入为纯单分符token[token_num++] = ch;switch (ch){//单分符为4  双分界符为5case '*':ch = getc(f_in);return 4;case '+':ch = getc(f_in);if (ch == '+') {token[token_num++] = ch;ch = getc(f_in);return 5;}else {return 4;}				//可以扩展为++case '-':ch = getc(f_in);return 4;					//可以扩展为--case '(':				ch = getc(f_in);return 4;case ')':ch = getc(f_in);return 4;case '{':ch = getc(f_in);return 4;case '}':ch = getc(f_in);return 4;case ',':ch = getc(f_in);return 4;case ';':ch = getc(f_in);return 4;case '"':ch = getc(f_in);return 4;case '/':ch = getc(f_in);return 4;case '>':ch = getc(f_in);//读下个字符看看是不是双分符if (ch == '=') {token[token_num++] = ch;ch = getc(f_in);return 5;}else {return 4;}case '<':ch = getc(f_in);//读下个字符看看是不是双分符if (ch == '=') {token[token_num++] = ch;ch = getc(f_in);return 5;}else {return 4;}case '!':ch = getc(f_in);//读下个字符看看是不是双分符if (ch == '=') {token[token_num++] = ch;ch = getc(f_in);return 5;}else {return 4;}case ':':ch = getc(f_in);return 4;case '=':ch = getc(f_in);//读下个字符看看是不是双分符if (ch == '=') {token[token_num++] = ch;ch = getc(f_in);return 5;}else {return 4;}case EOF:return -1;    //文件结尾符号default:			//错误没有匹配ch = getc(f_in);return -2;}}
} 
int INT;void compile() {int state;			//记录编译状态int error[100];		//记录错误行数printf("编译结果:\n");printf("类别值\t自身值\n");//读取文件第一个字符ch = getc(f_in);while (1) {if (ch != '/') {state = compile_word();if (state == -1) {break;}switch (state){case 1:printf("%s\t%s\n", token, token);fprintf(f_out, "%s\t%s\n", token, token);break;case 2: {printf("ID\t%s\n", token);fprintf(f_out, "ID\t%s\n", token);}break;case 3:printf("NUM\t%s\n", token);fprintf(f_out,"NUM\t%s\n", token);break;case 4:printf("%s\t%s\n", token, token);fprintf(f_out, "%s\t%s\n", token, token);break;case 5:printf("%s\t%s\n", token, token);fprintf(f_out, "%s\t%s\n", token, token);break;case -2:printf("ERROR: the error place is in the %d row. You have entered illegal characters\n", row + 1);fprintf(f_out, "ERROR: the error place is in the %d row. You have entered illegal characters\n", row + 1);break;case -3:printf("ERROR: the error place is in the %d row. You should enter lowercase (%s)\n", row + 1, tmp);fprintf(f_out, "ERROR: the error place is in the %d row. You should enter lowercase (%s)\n", row + 1, tmp);break;case -4:printf("ERROR: the error place is in the %d row. You cannot start a word with a number\n", row + 1);fprintf(f_out, "ERROR: the error place is in the %d row. You cannot start a word with a number\n", row + 1);break;default:break;}}else{ch = getc(f_in);bqd();}}
}

测试数据:

实验结果:


http://chatgpt.dhexx.cn/article/JFQjYu3v.shtml

相关文章

词法分析器的实现

原文地址为&#xff1a; 词法分析器的实现 开篇 编译&#xff0c;简单的说&#xff0c;就是把源程序转换为可执行程序。从hello world 说程序运行机制 里面简单的说明了程序运行的过程&#xff0c;以及一个程序是如何一步步变成可执行文件的。在这个过程中&#xff0c;编译器…

词法分析器原理简介

词法分析器原理简介 词法分析器读取有字符串组成的输入流&#xff0c;并产生包含单词的输出流&#xff0c;每个单词都标记了其语法范畴&#xff08;syntactic category&#xff09;或类型&#xff0c;等效于英文单词的词类。为了完成这种聚集和分类操作&#xff0c;词法分析器…

编译原理——词法分析器 C++实现

词法分析器 实验目的单词分类表单词结构描述单词状态转换图算法描述程序结构源代码实验结果 实验目的 对C语言的一个子集设计并实现一个简单的词法分析器&#xff0c;掌握利用状态转换图设计词法分析器的基本方法。利用该词法分析器完成对源程序字符串的词法分析。培养团队合作…

词法分析器(纯c语言)

一、原文章&#xff1a;词法分析器&#xff08;分析C语言&#xff09; 二、该词法分析器种别码表 三、词法分析器实现思路描述&#xff1a; 1.首先用一个数组来存储txt文本中非空白字符&#xff0c;并将存储字符的个数记录下来。 2.用scan()函数扫描数组中的字符&#xff0c…

编译原理--词法分析器(python语言实现)

词法分析器 最近在学习编译原理。由于实验要求有词法分析器&#xff0c;这里我就先记录一下词法分析器实现过程以及具体思路。 目标语言 此处我选择的目标语言是c语言的子集来进行词法分析。 实现语言 此处我选用的语言是python&#xff0c;主要还是考虑到python的数据结构…

词法分析器--C实现

实验目的&#xff1a; 编制一个读单词过程&#xff0c;从输入的源程序中&#xff0c;识别出各个具有独立意义的单词&#xff0c;即基本保留字、标识符、常数、运算符、分隔符五大类(可自主添加类别)。并依次输出各个单词的内部编码及单词符号自身值。 程序及其子程序&#xff1…

c语言实现词法分析器

词法分析器的功能:输入源程序&#xff0c;输出单词字符。单词字符一般可以分为下面五种。 &#xff08;1&#xff09;关键字 是由程序语言定义的具有固定意义的标识符。有时称这些标识符为保留字或者基本字。例如c语言中的int,char,define,strcut,double,if,else.等等 &#xf…

词法分析器(分析C语言)

问题描述&#xff1a; 用C或C语言编写一个简单的词法分析程序&#xff0c;扫描C语言小子集的源程序&#xff0c;根据给定的词法规则&#xff0c;识别单词&#xff0c;填写相应的表。如果产生词法错误&#xff0c;则显示错误信息、位置&#xff0c;并试图从错误中恢复。简单的恢…

词法分析器(c++)

前景提示&#xff1a; 个人觉得单纯是用来完成实验报告的话还行&#xff0c;但仅做参考&#xff0c;因为本人的编程水平有限&#xff0c;怕误人子弟。 本次代码支持以下操作&#xff1a; 单行注释 多行注释 文件形式输入 种别码可以在文件中自由修改 单词字符串识别支持…

词法分析——词法分析器的作用

目录 综述 正文 1 词法分析与语法分析 2 词法单元、模式和词素 3 词法单元的属性 4 词法错误 综述 词法分析是编译的第一阶段。词法分析器的主要作用是读入源程序的输入字符、将它们组成词素&#xff0c;生成并输出一个词法单元序列&#xff0c;每个词法单元对应一个词素。…

词法分析器

词法分析&#xff08;Lexical Analysis&#xff09; 词法分析器在英文中一般叫做 Tokenizer。 有一个计算模型&#xff0c;叫做有限自动机&#xff08;Finite-state Automaton&#xff0c;FSA&#xff09;&#xff0c;或者叫做有限状态自动机&#xff08;Finite-state Machin…

编译原理——词法分析器

1 概述 设计、编制并调试一个简单的C语言词法分析程序&#xff0c;掌握利用状态转换图设计词法分析器的基本方法&#xff0c;利用该词法分析器完成对源程序字符串的词法分析。通过对该词法分析器的设计&#xff0c;加深对词法分析原理、状态转换图等编译原理知识的理解。 2 使…

编译原理词法分析器(C/C++)

前言&思路 词法分析器不用多说&#xff0c;一开始我还不知道是什么样的&#xff0c;看了下别人的博客&#xff0c;再看看书&#xff0c;原来是输出二元组&#xff0c;这不就是字符串操作嘛。然后细看几篇博客&#xff0c;发现大都是用暴力判断来写的。我对代码重复性比较高…

【编译原理】词法分析(C/C++源代码+实验报告)

文章目录 1 实验目的和内容1.1实验目的1.2实验内容 2 设计思想2.1单词种类及其正规式2.2 根据正规式构造NFA2.3根据NFA构造DFA2.3.1根据替换规则构造未化简的DFA2.3.2最小化DFA 3算法流程4源程序5调试数据5.1 测试样例一5.2 测试样例二5.3 测试样例三 6实验调试情况及体会6.1 实…

session 每次请求都会产生新的sessionID

问题描述&#xff1a; 最近在写一个项目时&#xff0c;在运行项目后每刷新一次都会产生一个新的Session ID&#xff0c;导致无法取值。 原因分析&#xff1a; 搞了很久发现是URL路径的问题&#xff0c;把http://localhost:8080//的双斜杠该为单斜杠就行了 解决方案&#xf…

JavaWeb - Cookie、Session、SessionId 详解

一、概述 会话&#xff08;Session&#xff09;跟踪是Web程序中常用的技术&#xff0c;用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。Cookie通过在客户端记录信息确定用户身份&#xff0c;Session通过在服务器端记录信息确定用户身份。 本章将系统地讲述Co…

JSESSIONID和sessionid的区别

要保持登陆状态&#xff0c;但是sessionid 和 JSESSIONID的值不一致&#xff0c; 情况一&#xff1a;部署到测试机上&#xff0c;利用本机登陆网页&#xff0c;sessionid和jsessionid不一样。 情况二&#xff1a;部署在本机&#xff0c;本机登陆页面&#xff0c;sessionid和js…

关于两次访问接口的sessionid不一致问题

在测试验证邮箱、注册逻辑时&#xff0c;出现验证码错误的问题。验证码是存放在session内的&#xff0c;在排除了逻辑代码的问题后&#xff0c;检查出这两次访问接口的sessionid并不一致&#xff0c;而在swagger测试接口时是一致的。因此我比较了swagger与ajax请求/响应头的区别…

cookie、session、sessionid 与jsessionid

cookie、session、sessionid 与jsessionid&#xff0c;要想明白他们之间的关系&#xff0c;下面来看个有趣的场景来帮你理解。 我们都知道银行&#xff0c;银行的收柜台每天要接待客户存款/取款业务&#xff0c;可以有几种方案&#xff1a; 凭借柜台职员的记忆&#xff0c;由收…

如何根据sessionID获取session解决方案

点个赞&#xff0c;看一看&#xff0c;好习惯&#xff01;本文 GitHub https://github.com/OUYANGSIHAI/JavaInterview 已收录&#xff0c;这是我花了3个月总结的一线大厂Java面试总结&#xff0c;本人已拿腾讯等大厂offer。 另外&#xff0c;原创文章首发在我的个人博客&#…