OCR文本扫描 轮廓检测 透视变换

article/2025/11/1 23:02:15

OCR文本扫描项目实战(图像预处理,调用pytesseract.image_to_string()完成文本识别)

本项目和源代码来自唐宇迪opencv项目实战

本文是一篇OCR文本扫描项目实战的学习笔记。在opencv-python环境下对图像进行轮廓检测、透视变换等处理。调用pytesseract模块实现文本扫描。
恳请批评指正

OCR文本识别

什么是OCR,百度里的定义是:

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

简单说来,打印在纸上的“hello word”,将它以一张图片的形式输入到计算机中,计算机经过一系列的处理,识别出“hello word”,转化成了可以复制的文本格式就更好啦O(∩_∩)O。
OCR应用方面广泛,常见的比如翻译软件中的拍照翻译。

项目概述

本项目分为两部分:
1 对输入图像进行一系列预处理
2 对处理后的图像进行文本扫描并输出识别的结果
实现的流程图如图所示:
OCR文本扫描流程图
输入一张包含文字信息的的图片输入的图片
处理后的结果如图所示:
处理后的输出结果
进行OCR文本识别的输出结果为:
输出结果
文末附代码

算法步骤

1 设置参数

在参数中输入图片的相对路径,将图片传入。

import argparse
ap = argparse.ArgumentParser()
ap.add_argument("-i", "--image", required= True,help="Path to the image to be scanned")
args = vars(ap.parse_args())

参数修改为图片的相对路径:

–image images/hello.jpg

2 图片预处理操作

resize 操作
resize函数的作用是按照原图像相同长宽比,当给定长(height)或者宽(width)时将原图resize成与原图像同比例的大小。

至于这一步为什么要进行resize操作,我分析有两点原因。
1 实验使用的图像多为手机拍摄的图片,图片大小至少为3500*4000,在imshow(),在屏幕显示并不能像是完整的图像,不利于观察。
2 用原图直接调用pytesseract image_to_string时可能返回值为空(我没明白)

该函数的返回值是resize后的图片;参数是原图像和指定的变换后的width或height值。
接着对图像进一步操作

Canny边缘检测步骤
参考一篇写canny边缘检测的博客
1.使用高斯滤波器以平滑图像滤除噪声
2.计算图像中每个像素点的强度和方向
3.应用非极大值抑制(Non-maximum suppression,NMS)来消除边缘检测带来的杂散响应。
4.应用双阈值检测(Double-Threshold)来确定真实的和潜在的边缘
5.通过抑制孤立的弱边缘最终完成边缘检测。

Canny边缘检测之前需要先降噪----高斯滤波

GaussianBlur(src,ksize,sigmaX [,dst [,sigmaY [,borderType]]])-> dst

第一个参数是输入图像,可以是Mat类型,图像深度为CV_8U、CV_16U、CV_16S、CV_32F、CV_64F。
第二个参数是输出图像,与输入图像有相同的类型和尺寸。
Size ksize: 高斯内核大小,这个尺寸与前面两个滤波kernel尺寸不同,ksize.width和ksize.height可以不相同但是这两个值必须为正奇数,如果这两个值为0,他们的值将由sigma计算。
double sigmaX: 高斯核函数在X方向上的标准偏差
double sigmaY: 高斯核函数在Y方向上的标准偏差,如果sigmaY是0,则函数会自动将sigmaY的值设置为与sigmaX相同的值,如果sigmaX和sigmaY都是0,这两个值将由ksize.width和ksize.height计算而来。

Canny边缘检测函数

canny = cv2.Canny(gauss, 75, 200)

第一个参数时输入的图像,第二个参数是MinVal,第三个参数是MaxVal。
如果该点的梯度大于MaxVal, 则将该点处理为边界。如果该点的梯度大于MinVal且小于MaxVal,则抗癌电视都与边界相连,如果相连则将该点处理为边界,否则不是边界。如果该点小于MinVal则该点不是边界。

轮廓检测
查找轮廓,轮廓检测使用的模型是RETR_LIST,检测所有轮廓, 并将其保存在一条链表中

cv2.findContours(img, mode, methord)

下表列出了轮廓检测的模型mode

MODE注释
RETR_EXTERNAL只检测最外面的轮廓
RETR_LIST检索所有轮廓,并将其保存到一条链表中
RETR_CCOMP检索所有轮廓,并将他们组织为两层 ,顶层是各部分的外界边界,第二层是空洞的边界
RETR_TREE检测所有轮廓,并重构嵌套轮廓的整个层次

cnts = sorted(cnts, key=cv2.contourArea, reverse=True)[:5]

检测到所有轮廓后根据轮廓面积大小对轮廓进行排序,并保留前五个,画出这按照面积排序的前五个轮廓(在绘制轮廓之前别忘了复制原图像,否则显示原图形也会被更改。)

轮廓近似
定义一个循环,遍历轮廓,完成轮廓近似的操作。

peri = cv2.arcLength(c, True)

先计算出轮廓的周长,然后以轮廓周长乘以一个百分比作为轮廓近似的精度。

approx = cv2.approxPolyDP(c, 0.02*peri, True)
True表示轮廓是封闭的

而轮廓近似的返回值是能够包含图像的点的集合。既然是逐个点确定,又包含了整个图像,那一定是从最大的轮廓开始。当返回值的长度为4,即返回点的个数为4时,说明确定的就是能将最外面的最大轮廓包围的四边形的四个顶点。显示图像如图所示:
显示近似轮廓的四个定位点

透视变换

透视变换(Perspective Transformation)是将成像投影到一个新的视平面(Viewing Plane)

自定义函数 order_points()

	s = pts.sum(axis=1)rect[0] = pts[np.argmin(s)]rect[2] = pts[np.argmax(s)]diff = np.diff(pts, axis = 1)rect[1] = pts[np.argmin(diff)]rect[3] = pts[np.argmax(diff)]return rect

程序中定义了两个函数,order_point函数用一种方法来分辨这四个定位点分别对应于四边形的那个顶点,简单说就是给四个点起名字。
左下(bl), 右下(br), 右上(tr), 左上(tl),并将四个点按顺势者或逆时针依次存放。从那个点开始存放不重要,关键是要通过这四个点的坐标关系确定每一个点分别对应(四边形)的哪一个顶点。简单说来就是给每一个点起了一个代号,方便使用它,后面有用。

第二个函数 four_point_transform(image, pts)进行透视变换了。首先调用函数order_point,使用这四个起好名字的点。根据几个关系利用公式 s = ((x2-x1)2 +(y2-y1)2 )1/2 。因为四个点确定的近似轮廓不一定是矩形,所以分别取长和宽最大长度,

自定义函数 def four_point_transform()

widthA = np.sqrt(((br[0] - bl[0]) ** 2) + ((br[1] - bl[1]) ** 2))widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + ((tr[1] - tl[1]) ** 2))maxWidth = max(int(widthA), int(widthB))heightA = np.sqrt(((tr[0] - br[0]) ** 2) + ((tr[1] - br[1]) ** 2))heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + ((tl[1] - bl[1]) ** 2))maxHeight = max(int(heightA), int(heightB))dst = np.array([[0, 0],[maxWidth - 1, 0],[maxWidth - 1, maxHeight - 1],[0, maxHeight - 1]], dtype = "float32")

dst对应的是与原图像中轮廓大小相同,只是进行了坐标变换的图像。左上角坐标点为(0,0),图像的长、宽分别为四边形轮廓长、宽最大值的四个定位点。将原图像中卡片的轮廓抠出来,变换了坐标。

透视变换函数包含在自定义函数four_point_transform()中
透视变换就是将原始的四个定位点,变换后定位点分别对应dst(左上角的定位点是(0, 0))中的四个定位点坐标。

M = cv2.getPerspectiveTransform(rect, dst)
warped = cv2.warpPerspective(image, M, (maxWidth, maxHeight))

返回时M是由原坐标透视变换到目标坐标点的变换矩阵。第二个返回图像的透视变换函数cv2.warpPerspective(image, M, (maxWidth, maxHeight))第一个参数是原始图像,第二个参数是变换矩阵(原图片中的小卡片是一个轮廓,变换后图像中小卡片充满了整张图像), 第三个参数是变换后图像的长和宽(场合宽是前面计算出的轮廓长宽取最大值的结果)。
最后该函数返回的结果是透视变换后的图像。

调用four_point_transform函数

warped = four_point_transform(orig, screenCnt.reshape(4, 2)*ratio)
说一下为什么要乘这个ratio
因为之前做的一系列图像处理操作(最后得到了近似轮廓的四个定位点)都是在resize后的图像上进行的。还记得resize函数是怎么做的吗,参数中给定width或者height的值,按照与原图像相同的比例对图像进行缩放。那么图像中每一个点的坐标都发生了相应的变化(不是面积大小,而是点的坐标发生了变化)
用plt显示图片验证一下
所以我们在程序一开始就把原图坐标和变化后图像的坐标的比例ratio记录下来。
我们刚刚说是图片上的每个像素点坐标发生了相应的变化,那么我们轮廓近似的四个定位点当然不例外就在其中。
所以相当于是吧原图像上的卡片四角的点坐标透视变换到与原图像相同大小的平面上,而four_point_transform函数的第二个参数scrrnCnt
中存储的坐标点应该与第一个参数中图像大小保持一致(都是原图或者都是resize变换后的,一致即可)。那我为什么要从一开始就做resize这一步呢?(因为图太大电脑屏幕放不下, 我要是有个巨大的屏幕是不是会省去很多麻烦)。
改了参数运行一下,嗯!

warped = four_point_transform(image, screenCnt.reshape(4, 2))
warped = four_point_transform(orig, screenCnt.reshape(4, 2)*ratio)

接下来就是灰度化、二值化一条龙服务。
终于把这张小卡片从图像中单独扣出来了!
结果如图所示:
显示结果
附代码

# coding = utf-8
# 导入模块
import cv2
import numpy as np
import argparse# 设置参数,输入图像为参数
ap = argparse.ArgumentParser()
ap.add_argument("-i", "--image", required= True,help="Path to the image to be scanned")
args = vars(ap.parse_args())# resize函数的作用是,按照原图像相同的长宽比,将图像的h转化到指定值大小,以改变图像的大小
def resize(image, width=None, height=None, inter=cv2.INTER_AREA):dim = None(h, w) = image.shape[:2]if width is None and height is None:return image# 如果只给出了height值if width is None:r = height / float(h)dim = (int(w * r), height)else:r = width / float(w)dim = (width, int(h * r))resized = cv2.resize(image, dim, interpolation=inter)print('(h, w)', (h, w))return resized# 读取输入
img = cv2.imread(args["image"])
# 坐标变换
ratio = img.shape[0]/500
orig = img.copy()
# 调用resize函数
image = resize(orig, height=500)# 图像预处理,
# Canny边缘检测
gray_img = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# cv2.GaussianBlur(InputArray src, OutputArray dst, Size ksize, double sigmaX, double sigmaY=0, int borderType=BORDER_DEFAULT)
# 函数第一个参数为输入图像,第二个参数为输出图像, 第三个参数为该死内核的大小,
# 第四个参数表示高斯核函数在水平方向的标准差, 第五个参数表示高斯核函数在垂直方向的标准差
# 若sigmaY为零,就将它设为sigmaX,如果sigmaX和sigmaY都是0,那么就由ksize.width和ksize.height计算出来。
gauss = cv2.GaussianBlur(gray_img, (5, 5), 0)
canny = cv2.Canny(gauss, 75, 200)# 检测轮廓
# 轮廓检测使用的模型是RETR_LIST,检测所有轮廓, 并将其保存在一条链表中
cnts = cv2.findContours(canny.copy(), cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE)[0]
# 根据面积大小, 对前五个轮廓进行排序
cnts = sorted(cnts, key=cv2.contourArea, reverse=True)[:5]
screen_five = cv2.drawContours(image.copy(), cnts, -1, (236, 0, 0), 1)
# 遍历轮廓,做轮廓近似
for c in cnts:peri = cv2.arcLength(c, True)# c表示输入的点集, epsilon表示从原始轮廓到近似轮廓的最大距离,它是一个准确度参数# True表示是封闭的approx = cv2.approxPolyDP(c, 0.02*peri, True)# 当确定了四个点,就确定了轮廓if len(approx) == 4:screenCnt = approxbreak
print("approx\n", approx)
# 不加括号的轮廓是指单独的点
img_four = cv2.drawContours(image.copy(), screenCnt, -1, (0, 0, 255), 5)
# 加括号的轮廓是指一个整体的轮廓
screen_img = cv2.drawContours(image.copy(), [screenCnt], -1, (0, 89, 255), 2)
# 透视变换def order_points(pts):
# 一共4个坐标点# 给定了四个坐标点,因为变换矩阵有8个未知数。rect = np.zeros((4, 2), dtype = "float32")# 按顺序找到对应坐标0123分别是 左上,右上,右下,左下# 计算左上,右下s = pts.sum(axis=1)rect[0] = pts[np.argmin(s)]rect[2] = pts[np.argmax(s)]# 计算右上和左下diff = np.diff(pts, axis = 1)rect[1] = pts[np.argmin(diff)]rect[3] = pts[np.argmax(diff)]return rectdef four_point_transform(image, pts):# 获取输入坐标点# 原始坐标点rect = order_points(pts)# 4  3# 1  2(bl, br, tr, tl) = rect# 计算输入的w和h值widthA = np.sqrt(((br[0] - bl[0]) ** 2) + ((br[1] - bl[1]) ** 2))widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + ((tr[1] - tl[1]) ** 2))maxWidth = max(int(widthA), int(widthB))heightA = np.sqrt(((tr[0] - br[0]) ** 2) + ((tr[1] - br[1]) ** 2))heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + ((tl[1] - bl[1]) ** 2))maxHeight = max(int(heightA), int(heightB))# 变换后对应坐标位置# 变换后的坐标点# dst对应的是与原图像中轮廓大小相同,只是进行了坐标变换的图像。左上角坐标点为(0,0),图像的长、宽分别为四边形轮廓长、宽最大值的轮廓dst = np.array([[0, 0],[maxWidth - 1, 0],[maxWidth - 1, maxHeight - 1],[0, maxHeight - 1]], dtype = "float32")# 计算变换矩阵# 计算从原始坐标到变换后坐标点的变换矩阵# 原始图像为一个二维的歪歪扭扭的轮廓,先转化为三维矩阵,再转化成二维的位置纠正后的矩阵# 透视变换(Perspective Transformation)是将成像投影到一个新的视平面(Viewing Plane)# getPerspectiveTransform第一个参数是原始坐标点,第二个参数是变换之后的坐标点# 给定了四个坐标点,变换矩阵M有8个未知数M = cv2.getPerspectiveTransform(rect, dst)# 利用四组坐标点能够求出变换矩阵Mwarped = cv2.warpPerspective(image, M, (maxWidth, maxHeight))# 返回变换后结果return warped# 一共有4个点,每个点都有x, y坐标,所以是(4, 2)
# 第一个参数是原图,第二个参数是取resize之后的四个轮廓点再乘以ratio就是又变换为原图的轮廓点的坐标# 因为之前做的一系列图像处理操作(最后得到了近似轮廓的四个定位点)都是在resize后的图像上进行的。还记得resize函数是怎么做的吗,参数中给定width或者height的值
# 按照与原图像相同的比例对图像进行缩放。那么图像中每一个点的坐标都发生了相应的变化(不是面积大小,而是点的坐标发生了变化)
# 用plt显示图片验证一下
# 所以我们在程序一开始就把原图坐标和变化后图像的坐标的比例ratio记录下来。
# 我们刚刚说是图片上的每个像素点坐标发生了相应的变化,那么我们轮廓近似的四个定位点当然不例外就在其中。
# 所以相当于是吧原图像上的卡片四角的点坐标透视变换到与原图像相同大小的平面上,而four_point_transform函数的第二个参数scrrnCnt
# 中存储的坐标点应该与第一个参数中图像大小保持一致(都是原图或者都是resize变换后的)# warped = four_point_transform(image, screenCnt.reshape(4, 2))
warped = four_point_transform(orig, screenCnt.reshape(4, 2)*ratio)
# 二值处理
warped_gray = cv2.cvtColor(warped, cv2.COLOR_BGR2GRAY)
img_thresh = cv2.threshold(warped_gray, 0, 255,cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]
# img_thresh = cv2.threshold(warped_gray, 0, 255, cv2.THRESH_BINARY)[1]
cv2.imwrite('scan.jpg', img_thresh)cv2.imshow("original_image", img)
cv2.imshow("reshape_image", image)
cv2.imshow("gaussBlur", gauss)
cv2.imshow("canny_img", canny)
cv2.imshow("screen_five", screen_five)
cv2.imshow("img_four", img_four)
cv2.imshow("screen_img", screen_img)
cv2.imshow("warped", warped)
cv2.imshow("warped_gray", warped_gray)
cv2.imshow("img_thresh", img_thresh)
cv2.waitKey(0)
cv2.destroyAllwindows()

至此图像预处理部分完成。并且保存了预处理的结果, scan.jpg

3 调用pytesseract进行OCR文本识别

接着在test.py中 import pytesseract 进行OCR识别

# https://digi.bib.uni-mannheim.de/tesseract/
# 配置环境变量如E:\Program Files (x86)\Tesseract-OCR
# tesseract -v进行测试
# tesseract XXX.png 得到结果 
# pip install pytesseract
# anaconda lib site-packges pytesseract pytesseract.py
# tesseract_cmd 修改为绝对路径即可from PIL import Image
import pytesseract
import cv2
import ospreprocess = 'blur' #threshimage = cv2.imread('scan.jpg')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)if preprocess == "thresh":gray = cv2.threshold(gray, 0, 255,cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]
# 进行中值滤波
if preprocess == "blur":gray = cv2.medianBlur(gray, 3)
# 获取当前进程id
filename = "{}.png".format(os.getpid())
cv2.imwrite(filename, gray)text = pytesseract.image_to_string(Image.open(filename))
print(text)
os.remove(filename)cv2.imshow("Image", image)
cv2.imshow("Output", gray)
cv2.waitKey(0)                                   

首先对图像进行灰度化处理, 然后进行均值滤波。

gray = cv2.medianBlur(gray, 3)

调用pytesseract.image_to_string()函数

pytesseract.image_to_string(Image.open(filename))

最后输出识别的文本
输出结果

感谢
https://blog.csdn.net/yangxuelian_lucky/article/details/90443367
https://www.cnblogs.com/mmmmc/p/10524640.html


http://chatgpt.dhexx.cn/article/UtsBhrJl.shtml

相关文章

搭建CRNN模型(基于windows与tensorflow)

3.1.1.CRNN介绍 通过CNN将图片的特征提取出来后采用RNN对序列进行预测,最后通过一个CTC的翻译层得到最终结果。说白了就是CNNRNNCTC的结构。 Git 地址https://github.com/bgshih/crnn 论文:paper http://arxiv.org/abs/1507.05717. 3.1.2.CNN介绍 CNN…

CTPN训练集准备

去down vgg_16.ckpt预训练模型准备一堆你需要训练的图片,使用labelme进行标注,得到一堆json文件 json文件大致如下: {"flags": {},"shapes": [{"label": "str","line_color": null,"…

【项目实践】中英文文字检测与识别项目(CTPN+CRNN+CTC Loss原理讲解)

点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达本文转自:opencv学堂 OCR——简介 文字识别也是图像领域一个常见问题。然而,对于自然场景图像,首先要定位图像中的文字位置&#xff0…

『工程项目实践』银行卡识别(CTPN+CRNN)

银行卡识别 前言一、数据预处理1.1 数据准备1.2 数据增强 二、训练(CRNN)三、需要修改的内容3.1 数据增强3.2 训练 四、CRNN 结构说明4.1 CNN4.2 BiLSTM4.3 CTC 五、卡号检测六、BIN码校验参考链接 前言 对各种银行卡进行卡号识别,CTPN 进行文…

【深度学习】YOLOv5 中使用的 CSPNet 是怎么回事

论文:https://arxiv.org/pdf/1911.11929.pdf CSPNet全称是Cross Stage Partial Network,主要从一个比较特殊的角度切入,能够在降低20%计算量的情况下保持甚至提高CNN的能力。 跨阶段局部网络(CSPNet)是 Wang 等人于 20…

Opencv多语言自然场景文本识别系统(源码&教程)

1. 研究背景 人类在自然场景中可以快速定位并识别看到的文字信息,但是想要计算机做到和人类一样是比较困难的。开发人员一直想要让机器也能识别图像中的文字信息。当然,对于自然场景来说,图像中的信息复杂甚至是低效的,文字旁的物体﹑光影,以及字体颜色、大小、书写…

深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)

1:样本获取 **算法论文:** Synthetic Data for Text Localisation in Natural Images Github: https://github.com/ankush-me/SynthText **词库:** https://pan.baidu.com/s/10anmu 英文词汇 经过处理后得到大约500兆 6000万词组 **字体:** ubntu系统下支持中文的字体&…

ctpn、east阅读要点记录

最近要做一些ocr的事情,阅读了文字定位的相关论文,主要是ctpn和east.下面对这两篇论文的药店进行一个记录。 CTPN ctpn结合了卷积神经网络和循环神经网络。卷机神经网络用于提取图片特征,循环神经网络能够帮助提升对文字的定位和分类的准确…

基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别

文章主要是为了说明在windows平台下调试遇到的问题。 代码地址:https://github.com/Aurora11111/chinese-ocr-pytorch 按照相关说明,安装相关的pytorch和tensorflow,我使用的是python3.7 下载代码后,需要进行修改才能在windows…

OCR文字识别项目(原理)

参考视频: OCR文字识别原理 OCR光学字符识别:提取图像中的文字,并转换为文本形式,供后续NLP使用。 一、CTPN算法:文字检测 二、CRNN算法:文字识别 池化此时为12。才能把特征变为适用于输入到RNN中。

CTPN+CRNN算法端到端实现文字识别的实战开发

本文分享自华为云社区《CTPNCRNN 算法端到端实现文字识别》,作者:HWCloudAI。 OCR介绍 光学字符识别(英语:Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取…

OCR入门教程系列(五):OCR实战代码解析

👨‍💻作者简介: CSDN、阿里云人工智能领域博客专家,新星计划计算机视觉导师,百度飞桨PPDE,专注大数据与AI知识分享。✨公众号:GoAI的学习小屋 ,免费分享书籍、简历、导图等,更有交流群分享宝藏资料,关注公众号回复“加群”或➡️链接 加群。 🎉专栏推荐: ➡️ …

制作自己的ctpn数据集

制作自己的ctpn数据集 1、利用label-image标注自己的数据集,保存为.txt文件,结果如下: 上图第一列 0:标签 后面的小数是label—image标注的坐标框位置(归一化后的结果) 2、ctpn数据集的格式:…

CTPN文本检测与tensorflow实现

1. 引言 近年来,随着人工智能的发展,文本检测在很多任务中都是一项基本任务,比如广告牌中文字识别、智能驾驶路牌的检测、身份证识别、快递地址识别等。这些任务中首先的一项就是文本检测,即检测出文本在图像中的位置,…

制作自己的CTPN训练集

制作自己的CTPN训练集 使用labelimg工具制作YOLO格式再将其转为CTPN中需要的8个坐标 1.标注框 2.代码生成坐标并保存 import cv2 import os def change_labelimage_to_cptn_data(pictures_file_path, txt_file_path, cptn_data_labels_path):list os.listdir(txt_file_pat…

【文本检测与识别-白皮书-3.1】第四节:算法模型 2

CTPN CTPN,全称是“Detecting Text in Natural Image with Connectionist Text Proposal Network”(基于连接预选框网络的文本检测)。CTPN直接在卷积特征映射中检测一系列精细比例的文本建议中的文本行。CTPN开发了一个垂直锚定机制&#xf…

CPTN代码运行报错

Windows10 系统运行 github上给的是linux操作系统指令 因为我是Windows10 的系统,不能通过setup的指令得到所需文件,后面根据https://github.com/eragonruan/text-detection-ctpn/issues/359的方法到第4步报错 错误1: 找不到cl.exe&#x…

JAVA项目实战开发电商项目案例(十)订单与支付模块

文章目录 1项目架构2项目采用技术3订单与支付模块功能演示4如何开发支付宝的支付模块以及订单模块4.1首先需要编写前端页面以及JS文件4.2其次需要编写JAVA后台接口4.3支付模块分析4.4订单模块分析5代码分析6个人说明7 [我的个人网站](http://www.liph.fun)8获取源码 此次电商系…

Java 项目实战 坦克大战 (0)--前言

做了有一个星期了,java语言太强大了,也算是学得最认真的一门语言了,本次课设花的心思也就比较多了。关键总是追求完美总是想原创,最终做出来效果不错,但感觉代码逻辑很乱,今天开始就好好整理一番&#xff0…

Java项目实战第11天:搜索功能的实现

目录 一、sql语句动态拼接二、前后台代码编写三、搜索框数据回填最后 今天是刘小爱自学Java的第110天。 感谢你的观看,谢谢你。 话不多说,开始今天的学习: 事先说明:关于今天的搜索功能实现。 并没有使用到倒排索引这样的主流搜…