使用python读取大文件

article/2025/8/18 22:20:15

        读取文件时,如果文件过大,则一次读取全部内容到内存,容易造成内存不足,所以要对大文件进行批量的读取内容。

        python读取大文件通常两种方法:第一种是利用yield生成器读取;第二种是:利用open()自带方法生成迭代对象,这个是一行一行的读取。

1、利用yield生成器读取

示例代码:

# import random
# 生成模拟测试数据
# for i in range(100000):
#     random_data = random.randint(1, 100)
#     data = f"num:{i}, random_num: {random_data} \n"
#     with open('data/big_data.txt', 'a', encoding='utf-8') as f:
#         f.write(data)def read_big_file(file_path, size=1024, encoding='utf-8'):with open(file_path, 'r', encoding=encoding) as f:while True:part = f.read(size)if part:yield partelse:return Nonefile_path = 'data/big_data.txt'
size = 100  # 每次读取指定大小的内容到内存,为了测试更加明显,这儿写的小一些# 注意:以'a'追加模式下,大文件也不会占用太多内存
for part in read_big_file(file_path, size):with open('data/new_big_data.txt', 'a', encoding='utf-8') as w:w.write(part)print(part)print('*' * 100)

运行结果:

2、利用open()自带方法生成迭代对象

注意:这是一行一行的读取,在数据量比较大的时候效率是极低的。

示例代码:

# import random
# 生成模拟测试数据
# for i in range(100000):
#     random_data = random.randint(1, 100)
#     data = f"num:{i}, random_num: {random_data} \n"
#     with open('data/big_data.txt', 'a', encoding='utf-8') as f:
#         f.write(data)file_path = 'data/big_data.txt'
new_file_path = 'data/new_big_data.txt'
with open(file_path, 'r', encoding='utf-8') as f:for line in f:print(line)with open(new_file_path, 'a', encoding='utf-8') as a:a.write(line)

运行结果:


http://chatgpt.dhexx.cn/article/7hWbbp4Y.shtml

相关文章

前端必学 - 大文件上传如何实现

前端必学 - 大文件上传如何实现 写在前面问题分析开始操作一、文件如何切片二、得到原文件的hash值三、文件上传四、文件合并 技术点总结【重要】一、上传文件?二、显示进度三、暂停上传四、Hash有优化空间吗?五、限制请求个数六、拥塞控制,动…

Linux如何快速生成大文件

微信搜索:“二十同学” 公众号,欢迎关注一条不一样的成长之路 dd命令 dd if/dev/zero offile bs1M count20000 会生成一个20G的file 文件,文件内容为全0(因从/dev/zero中读取,/dev/zero为0源)。 此命令可…

java 处理大文件

目的: 前几天在开发过程中遇到一个需求: 读取一个大约5G的csv文件内容,将其转化为对象然后存储到redis中, 想着直接开大内存直接load 进入到内存中就行了,结果可想而知,5G的文件 ,Xmx 开到10G都没有解决,直接out of Me…

5、Linux:如何将大文件切割成多份小文件

最近,在做数据文件的导入操作时,发现有些文本文件太大了,需要将这样的大文件切分成多个小文件进行操作。那么,Linux 中如何将大文件切割成许多的小文件呢?在此记录一下。 Linux 提供了 split 命令可以轻松实现大文件的…

大文件传输有哪些方式可用?大文件传输有哪些方式?

大文件传输有哪些方式可用?大文件传输有哪些方式?互联网时代,速度决定效率。在企业生产过程中需要进行信息数据交换、搬运。这时就需要进行大文件传输。方方面面的行业都要涉及到大文件传输。例如影视行业需要每天进行视频素材的传输&#xf…

简道云-第5章-流程

title: 简道云-第5章-流程 date: 2022-06-13 22:21:29 tags: 简道云 categories: 简道云 简道云-第5章-流程 背景介绍 简道云三个基本项目表单、流程以及仪表。关于它们的介绍可以参照官方文档表单 vs 流程表单 vs 仪表盘。 「流程表单」:填报数据,并带…

阿里云【达摩院特别版·趣味视觉AI训练营】笔记2

阿里云【趣味视觉AI训练营】笔记2 一、笔记说明二、正文2.1 人体分割实验2.2 图像人脸融合实验 三、转载说明 一、笔记说明 本博客专栏《阿里云【达摩院特别版趣味视觉AI训练营】》的所有文章均为趣味视觉AI训练营的学习笔记,当前【达摩院特别版趣味视觉AI训练营】…

笔记本简单使用eNSP的云连接外网

文章目录 前言一、连接拓扑图二、配置cloud 三、配置pc测试是否能连接外网 前言 很多时候ping不通的原因不是网卡问题,而是配置没有设置好 一、连接拓扑图 二、配置cloud 绑定信息为UDP然后点击增加 绑定信息 笔记本电脑可以选择WiFi-ip,有本地连接可以…

头歌-信息安全技术-用Python实现自己的区块链、支持以太坊的云笔记服务器端开发、编写并测试用于保存云笔记的智能合约、支持以太坊的云笔记小程序开发基础

头歌-信息安全技术-用Python实现自己的区块链、支持以太坊的云笔记服务器端开发、编写并测试用于保存云笔记的智能合约、支持以太坊的云笔记小程序开发基础 一、用Python实现自己的区块链1、任务描述2、评测步骤(1)打开终端,输入两行代码即可评测通过 二、支持以太坊…

华为云HCS解决方案笔记HUAWEI CLOUD Stack【面试篇】

目录 HCS方案 一、定义 1、特点 2、优点 二、云服务 1、云管理 2、存储服务 3、网络服务 4、计算服务 5、安全服务 6、灾备服务 7、容器服务 三、应用场景 四、HCS功能层 五、OpenStack网络平面规划 六、ManageOne运维面 1、首页 2、集中监控 3、资源拓扑 …

关于玄武集团MOS云平台的使用笔记

对于该平台感兴趣的可以自己下载开发文档看一下,附上地址: https://download.csdn.net/download/qq_39380192/11182359 1、根据开发手册,MOS云平台给用户提供了关于各种通信服务的接口,用户可以通过调用相关的接口来实现一下几点功能&#x…

巧用git commit搭建云笔记+历史记录本

一、整理笔记的必要性 长期学习过程中,我发现人脑并不擅长记忆,它更擅长思考问题。程序员每天都要学习很多知识,学得快,忘得快很正常。很多东西并不需要记住,况且知识那么多,怎么可能全部记住?…

Aliyun 学习笔记(二)阿里云物联网平台介绍

文章目录 1 阿里云物联网平台1.1 设备接入1.2 设备管理1.3 安全能力1.4 规则引擎 1 阿里云物联网平台 根据阿里云物联网平台文档可以了解到所有有关阿里云物联网平台的介绍。 阿里云物联网平台为设备提供安全可靠的连接通信能力,向下连接海量设备,支撑…

《没道云笔记》开发手记

基本配置 Client:Android Servlet:SAE(PHPMySQLStorage) Period:2 weeks 项目分析 1.Model: Article.class{int id;String username;String title;String time;String content;} Bean.calss{int[] ids;String u…

《物联网 - 机智云开发笔记》第2章 设备驱动开发

开发板:GoKit3开发板(STM32F103) 在上一章节,笔者带领大家已经将机智云平台玩起来,本节内容讲带领大家经进一步开发。 在开始讲解之前,有必要先了解的机智云的平台架构。 从上面的架构图可以看到&#xf…

云笔记的使用感受和选择

市场上有很多文章针对云笔记的选择,但经过下载发现可能存在很多虚假广告【求生欲:其实可能是个人使用感受不佳仅表示个人观点】。 为什么选择云笔记 个人比较喜欢(❤ ω ❤)记录学习笔记和生活中的东西。之前选择有道云笔记,但因为最近打开…

基于分布式的云笔记实现(参考某道云笔记)

注: 1)云笔记代码可在github上下载,如果对您有用,记得star一下。 2)依赖jar包可在以下地址下载jar包,密码:yvkj,放到web/lib下即可 3)hdfs配置参考网址 4&#xff09…

高软作业1:云笔记软件调研

写在前面: 选择云笔记作为这次调研对象,是因为看到一位同学作业里关于iOS场景下面的笔记软件对比。这一下子让我想起自己入坑过的各款云笔记应用,他们基本上都拥有云端存储和多端同步的功能,但同时又都存在着各自的优缺点。本来一…

华为云学习笔记(二)

物联网发展简史与概述 物联网大事件:NB-lot标准演进 NB-lot: 窄带物联网(Narrow Band Internet of Things, NB-IoT)成为万物互联网络的一个重要分支。NB-IoT构建于蜂窝网络,只消耗大约180kHz的带宽,可直接…

阿里云笔记2.0

【达摩院特别版趣味视觉AI训练营】 智能视觉开放平台> 目的:致力于更专业、全面、易用的视觉AI能力 图片4通道和3通道的对比成效 人体分割技术,适应复杂背景 即使人物处于复杂背景环境,依然可以将人体准确地从背景中分割出来。 阿里云…