【pytesseract】python图片识别OCR库

article/2025/11/5 9:29:30

目录

  • 一、pytesseract简介
    • 1.1 pytesseract库
    • 1.2 pytesseract用途
  • 二、pytesseract安装
    • 2.1 安装和配置底层应用Tesseract-OCR
      • 2.1.1 GitHub 官网地址:查看源码
      • 2.1.2 官网安装包:下载
      • 2.1.3 安装Tesseract-OCR
      • 2.1.4 配置环境变量
      • 2.1.5 查看Tesseract-OCR是否安装成功
      • 2.1.6 将下载的语言包解压到 C:\Program Files\Tesseract-OCR\tessdata
    • 2.2 安装依赖库Pillow
    • 2.3 安装pytesseract库
  • 三、实例测试

一、pytesseract简介

tesseract原意为:宇宙魔方;超立方体;超正方体;四维超正方体;四次元立方体

1.1 pytesseract库

pytesseract为Python开源的OCR(光学字符识别)库,能够识别图片上的数字、英文和中文等。

1.2 pytesseract用途

它要求字迹规整、清晰可见,适合识别电脑和手机截屏等。对各种验证码的识别效果一般。

二、pytesseract安装

pytesseract库属于人工智能(AI)领域的库,AI领域的库安装一般都有点麻烦,不是一条pip就能完成的,需要配置底层应用和依赖库。

2.1 安装和配置底层应用Tesseract-OCR

Tesseract-OCR 是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎。与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。

2.1.1 GitHub 官网地址:查看源码

https://github.com/tesseract-ocr/tesseract
在这可以查看和下载源码,自己编译,如果不想查看源码,只想直接使用,请下载下面的官网安装包
在这里插入图片描述
下载简体和繁体识别包:https://github.com/tesseract-ocr/tessdata
在这里插入图片描述
在这里插入图片描述
如果不能下载,请自行百度下载吧,这个真的没办法。

2.1.2 官网安装包:下载

https://digi.bib.uni-mannheim.de/tesseract/
拉到最下面,下载适合自己电脑的最新的安装包。
在这里插入图片描述
在这里插入图片描述

2.1.3 安装Tesseract-OCR

在这里插入图片描述
选择组件时,注意把汉字的简繁体都选上,否则识别汉字可能有问题。
Additional script data (download)中选4项
在这里插入图片描述
Additional language data (download) 中选四项
在这里插入图片描述
选好组件的效果
在这里插入图片描述
默认安装路径为:C:\Program Files\Tesseract-OCR,如果你修改了,建议复制一下,下面配置环境变量需要用到
在这里插入图片描述
果然下载组件出问题,这个没办法,国内安全机制的问题,OK继续吧,得点8次,直到安装完成。
在这里插入图片描述

2.1.4 配置环境变量

  1. 配置系统变量:path
    在这里插入图片描述
  2. 添加 TESSDATA_PREFIX 系统变量,值为:C:\Program Files\Tesseract-OCR\tessdata
    在这里插入图片描述
    3.配置系统变量:path,新增 %TESSDATA_PREFIX%
    在这里插入图片描述
  3. 重启电脑

2.1.5 查看Tesseract-OCR是否安装成功

cmd运行输入:tesseract – version,能够正确显示版本号,说明成功。
在这里插入图片描述

2.1.6 将下载的语言包解压到 C:\Program Files\Tesseract-OCR\tessdata

默认只有英文识别包,所以只能识别英文
在这里插入图片描述
解压后可以识别各国文字,其中包括中文简体和繁体
在这里插入图片描述

2.2 安装依赖库Pillow

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple  pillow

我原来装过了
在这里插入图片描述

2.3 安装pytesseract库

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple  pytesseract

pytesseract库非常小,只有14K,它只要是调用前面的Tesseract-OCR
在这里插入图片描述

三、实例测试

编写中英文测试代码

import pytesseract
from PIL import Image# 英文识别
filename = 'py01.png'
img = Image.open(filename)
result = pytesseract.image_to_string(img, lang='eng')
result = result.replace('\n','').replace(' ','')
print(f'英文识别结果:\n {result}')# 中文识别
filename = 'py02.png'
img = Image.open(filename)
result = pytesseract.image_to_string(img,lang='chi_sim') #使用简体中文解析图片
result = result.replace('\n','').replace(' ','')
print(f'中文识别结果:\n {result}')

运行成功,但是汉字识别效果并不理想,和百度的在线OCR还是有很大差距的。原打算进一步发掘一下,看来得缓缓了。
在这里插入图片描述


http://chatgpt.dhexx.cn/article/PLMivmAO.shtml

相关文章

python识别图片表格内容

python-opencv表格识别 文章目录 python-opencv表格识别前言一、环境准备二、tesseract-OCR搭建1.tesseract-OCR2.debug tesseract 三、源码1.源码2.运行结果 总结 前言 提示:以下是本篇文章正文内容,python环境的搭建这里暂不做介绍,不会的…

python图片识别之tesseract

经过两个下午的尝试,终于搞出来了;特记录下来备忘; 首先来看python代码识别图片,这一段较为简单; from PIL import Image # import tesserocr # 完全可以不用这个 import pytesseractimage Image.open(rhahah.jpg)…

Python OCR识别图片

OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料…

Python图片识别——人工智能篇

目录 一、安装pytesseract和PIL PIL全称:Python Imaging Library,python图像处理库,这个库支持多种文件格式,并提供了强大的图像处理和图形处理能力。 由于PIL仅支持到Python 2.7,所以在PIL的基础上创建了Pillow库&…

部署kvm

实验需求: 1、部署kvm 2、使用WebVirtMgr的WEB界面管理 3、在该WEB界面中安装一台Linux操作系统 环境说明: 系统:CentOS7 IP:192.168.253.145 1. CPU虚拟化功能 部署前请确保你的CPU虚拟化功能已开启,分为两种情况…

KVM是什么 机柜 机架服务器 怎么用

多个刀片服务器连接到KVM,使用KVM对它们进行统一管理 每个服务器在KVM上有一个序号,切换序号,桌面就会进入到对应的服务器 是看PORT ID 上面的ON LINE哪些灯亮,则代表连上了哪几个服务器

linux服务器部署kvm

1.查看系统版本 [rootlocalhost ~]# cat /etc/centos-release CentOS Linux release 7.5.1708 (Core)2.检查是否开启虚拟化。有VMX或者svm [rootlocalhost ~]# cat /proc/cpuinfo | egrep vmx|svm如果没有数据显示的话,关闭虚拟机,点击虚拟机设置。 3…

KVM服务器安装详解及其应用(Services02 DAY01)

安装一台KVM服务器  问题 本例要求安装一台可用的KVM服务器: 准备一台CentOS6服务器安装虚拟化相关包组启动libvirtd服务  方案 在CentOS6系统中,KVM虚拟化相关的软件组包括四个:虚拟化、虚拟化客户端、虚拟化工具、虚拟化平台&#xff…

服务器的虚拟kvm是什么,服务器 配置虚拟kvm功能

服务器 配置虚拟kvm功能 内容精选 换一换 Linux操作系统XEN实例变更为KVM实例前,必须完成驱动的安装和配置。本节操作指导您手动安装Linux云服务器驱动、配置磁盘自动挂载等,并将XEN实例变更为KVM实例。如需使用自动化脚本安装驱动的方法请参考XEN实例变…

kvm云服务器虚拟化,kvm虚拟化 云服务器

kvm虚拟化 云服务器 内容精选 换一换 用户在华东区创建了一个保护组及其保护实例,如表1所示。删除该保护实例,但不删除容灾站点服务器。然后在弹性云服务器页面,卸载容灾站点服务器的云硬盘,并将该云硬盘挂载给可用区AZ1中的其他云…

搭建KVM服务器(1)

安装虚拟化服务器平台 虚拟化概念 • KVM /QEMU /LIBVIRTD – KVM是linux内核的模块,它需要CPU的支持,采用硬件辅劣虚拟化技术 Intel-VT,AMD-V,内存的相关如Intel的 EPT 和 AMD 的 RVI 技术。 – QEMU 是一个虚拟化的仿真工具,通过 ioctl 不内核kvm 交互完成对硬件的虚拟化支…

稳定kvm服务器vps,kvm的服务器vps

kvm的服务器vps 内容精选 换一换 oVirt Engine是运行在基于JBoss的Java应用程序。该服务与主机上的VDSM进行通信,以部署、启动、停止、迁移和监控VM,并且还可以通过模板在存储上创建新的镜像。oVirt Engine以可扩展性、安全性、高性能为基础的架构技术&a…

维护华为服务器的好工具KVM

以前维护服务器,要么打开远程桌面,要么打开telnet,或者使用其他的远程工具,今天维护一台新购买的华为服务器,使用了华为官网下载的KVM,真好用! 使用网线,找到Mgmt的网口插入&#xf…

服务器系统kvm安装,云服务器安装kvm

云服务器安装kvm 内容精选 换一换 安装完操作系统后的临时云服务器需要进行相关配置,并安装原生的XEN和KVM驱动,才能保证后续创建的云服务器正常使用。该任务指导用户完成Linux云服务器的相关配置与驱动安装,从而创建为Linux系统盘镜像。配置…

vnc远程管理kvm,在办公室连接kvm服务器

文章目录 vnc远程管理kvm vnc远程管理kvm vnc概念图 首先试试服务器装了VNC没 rpm -q tigervnc tigervnc-server没安装的话会直接出现 package tigervnc is not installed package tigervnc-server is not installed第一步,安装VNC packages: yum …

安装一台KVM服务器

1.安装一台KVM服务器 问题 本例要求安装一台可用的KVM服务器: 1)准备一台CentOS6服务器 2)安装虚拟化相关包组 3)启动libvirtd服务 方案 在CentOS6系统中,KVM虚拟化相关的软件组包括四个:虚拟化、虚拟化客户端、虚拟化工具、虚拟化平台&a…

kvm服务器创建虚拟机

virsh创建kvm虚拟机 详细讲解在Linux服务器上通过virsh工具创建kvm虚拟机,以及一些kvm虚拟机常用命令,如:创建、启动、删除、销毁等。 注意事项:在进行kvm虚拟机创建前需要确认Linux内核已经开启kvm功能。另一方面,vi…

Linux 安装KVM服务器

1.安装一台KVM服务器 问题 本例要求安装一台可用的KVM服务器: 1)准备一台CentOS6服务器 2)安装虚拟化相关包组 3)启动libvirtd服务 方案 在CentOS6系统中,KVM虚拟化相关的软件组包括四个:虚拟化、虚拟化客户端、虚拟化工具、虚拟化平台&a…

KVM如何装服务器系统,手把手教你配置KVM服务器

1 Ubuntu系统安装 1.1 制作启动盘 准备一个U盘,将其清空后,去官网下载Ubuntu18.04系统的iso镜像文件,并将其拷进U盘。然后下载一个UltralOS软碟通工具,完成安装后打开软碟通,文件->打开,打开我们的iso镜像,选择U盘点击启动->写入硬盘映像,最后写入就完成U盘启动盘…

Centos7安装kvm服务器

Centos7安装kvm服务器 什么是kvmvirt-manager及相关软件简介KVMQEMULibvirt KVM常用配置文件查看libvirtd配置文件查看libvirtd 守护进程的环境变量和参数 查看QEMU虚拟机监控程序配置 0.检查硬件是否支持kvm虚拟化检查CPU是否支持KVM虚拟化启动kvm虚拟化内核模块 1.启用嵌套虚…