Java如何上传大文件

article/2025/9/30 2:07:41

背景

用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种形式的技术方案了,也就是本文要阐述的方案。

技术要求主要有以下几方面:

  • 支持超大数据量、10G级别以上

  • 稳定性:除网络异常情况100%成功

  • 准确性:数据无丢失,读写准确性100%

  • 效率:1G文件分钟级、10G文件小时级

  • 体验:实时进度感知、网络异常断点续传、定制字符特殊处理

文件上传选型

文件上传至ODPS基本思路是先文件上传至某中转区域存储,然后同步至ODPS,根据存储介质可以分为两类,一类是应用服务器磁盘,另一类类是中间介质,OSS作为阿里云推荐的海量、安全低成本云存储服务,并且有丰富的API支持,成为中间介质的首选。而文件上传至OSS又分为web直传和sdk上传两种方案,因此上传方案有如下三种,详细优缺点对比如下:

蚂蚁的文本上传功能演进过程中对第一种、第二种方案均有实践,缺点比较明显,如上表所述,不满足业务需求,因此大文件上传终极方案是方案三。

整体方案

以下是方案三的整体过程示意图。

 

请求步骤如下:

  1. 用户向应用服务器取到上传policy和回调设置。

  2. 应用服务器返回上传policy和回调。

  3. 用户直接向OSS发送文件上传请求。
         等文件数据上传完,OSS给用户Response前,OSS会根据用户的回调设置,请求用户的服务器。如果应用服务器返回成功,那么就返回用户成功,如果应用服务器返回失败,那么OSS也返回给用户失败。这样确保了用户上传成功,应用服务器已经收到通知了。

  4. 应用服务器给OSS返回。

  5. OSS将应用服务器返回的内容返回给用户。

  6. 启动后台同步引擎执行oss到odps的数据同步。

  7. 同步实时进度返回返回给应用服务器,同时展示给用户。

技术方案

4.1 上传

OSS提供了丰富的SDK,有简单上传、表单上传、断点续传等等,对于超大文件提供的上传功能建议采用断点续传方式,优点是可以对大文件并行分片上传,利用OSS的并行处理能力,中间暂停也可以从当前位置继续上传,网络环境影响可以降到最低。

4.2 下载

OSS文件下载同样也有多种方式,普通下载、流式下载、断点续传下载、范围下载等等,若直接下载到本地同样建议断点续传下载,但我们的需求并不仅仅是下载文件本地存储,而是读取文件做数据从OSS到ODPS的同步,因此不做中间存储,直接边读变写,一方面采用OSS流式读取,一方面ODPS tunnel上传,用多线程读写方式提高同步速率。

4.3 两阶段数据转移

文件从本地到ODPS可以分为两个阶段,第一阶段前端分片断点续传将本地文件上传至OSS,第二阶段后端流式读写将数据从OSS同步至ODPS,如下图所示:

 

涉及技术点:

4.3.1 前端,js sdk带STS token 安全上传

在需要上传的文件较大时,可以通过multipartUpload接口进行分片上传。分片上传的好处是将一个大请求分成多个小请求来执行,这样当其中一些请求失败后,不需要重新上传整个文件,而只需要上传失败的分片就可以了。一般对于大于100MB的文件,建议采用分片上传的方法,每次进行分片上传都建议重新new一个新的OSS实例。

阿里云分片上传流程主要会调用3个api,包含

  1. InitiateMultipartUpload,      分片任务初始化接口。

  2. UploadPart, 单独的分片上传接口。

  3. CompleteMultipartUpload,      分片上传完成后任务完成接口

临时访问凭证是通过阿里云Security Token Service(STS)来实现授权的一种方式。其实现请参见STS Java SDK。临时访问凭证的流程如下:

  1. 客户端向服务器端发起获得授权的请求。服务器端先验证客户端的合法性。如果是合法客户端,那么服务器端会使用自己的AccessKey来向STS发起一个请求授权的请求,具体可以参考访问控制。

  2. 服务器端获取临时凭证之后返回给客户端。

  3. 客户端使用获取的临时凭证来发起向OSS的上传请求,更详细的请求构造可以参考临时授权访问。客户端可以缓存该凭证用来上传,直到凭证失效再向服务器端请求新的凭证。

4.3.2 后端,多线程流式读写

OSS端:如果要下载的文件太大,或者一次性下载耗时太长,可以多线程流式下载,一次处理部分内容,直到完成文件的下载。
ODPS端:tunnel sdk对OSS流式数据直接写入,一次完整的数据写入流程通常包括以下步骤:
先对数据进行划分;

  1. 为每个数据块指定      block id,即调用 openRecordWriter(id);

  2. 然后用一个或多个线程分别将这些 block 上传上去, 并在某个 block 上传失败以后,需要对整个 block 进行重传;

  3. 在所有 block 都上传以后,向服务端提供上传成功的 blockid list 进行校验,即调用      session.commit([1,2,3,…])
         而由于服务端对block管理,连接超时等的一些限制,上传过程逻辑变得比较复杂,为了简化上传过程,SDK提供了更高级的一种RecordWriter——TunnelBufferWriter。

实现过程及压测

太多了,可以参考我写的这篇文章:http://blog.ncmem.com/wordpress/2019/08/09/%e5%a4%a7%e6%96%87%e4%bb%b6%e4%b8%8a%e4%bc%a0%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88/

总结

实测结果显示,本文的上传方案实现了第一节提出的几点技术要求,如下:

  • 支持超大数据量、10G级别以上没有任何压力,主要是前端在分片上传设置好分片限额即可(最大10000片,每片最大100G),目前设置每片1M满足10G需求。

  • 稳定性:实测观察网络异常情况较少,文件内容正常情况下100%成功。

  • 准确性:实测数据无丢失,读写准确性100%。

  • 效率:办公网带宽1.5M/s的情况下1G文件分钟级、10G文件小时级,实际速度视用户端的当前网络带宽变化。

  • 体验:实时进度感知、网络异常断点续传、定制字符特殊处理等高级功能可以提升用户体验。


欢迎入群一起讨论:374992201

 

 


http://chatgpt.dhexx.cn/article/boVQqQQE.shtml

相关文章

Github上传大文件(>25MB)教程

Github上传大文件(>25MB)教程 Github上传大文件(>25MB)教程安装git安装Git Large File Storage实例踩坑点1:failed to push some refs to踩坑点2:main与master踩坑点3:Failed to connect …

如何高效的上传大文件?

业务场景:在很多业务中会涉及到文件上传,对于上传的文件大小要求也相对比较广,对于小文件而言我们使用MultipartFile上传就能解决,对于大文件来说可能也就将文件拆分成多份,一份一份的上传,大部分业务是足以…

请问:怎么实现大文件快速上传?

关注公众号 前端开发博客,领27本电子书 回复加群,自助秒进前端群 前言 大文件快速上传的方案,相信你也有过了解,其实无非就是将 文件变小,也就是通过 压缩文件资源 或者 文件资源分块 后再上传。 本文只介绍资源分块上…

超大文件上传解决方案

一、 功能性需求与非功能性需求 要求操作便利,一次选择多个文件和文件夹进行上传; 支持PC端全平台操作系统,Windows,Linux,Mac 支持文件和文件夹的批量下载,断点续传。刷新页面后继续传输。关闭浏览器后保留进度信息。 支持文件…

上传大文件(10G)的解决方案

需求: 项目要支持大文件上传功能,经过讨论,初步将文件上传大小控制在20G内,因此自己需要在项目中进行文件上传部分的调整和配置,自己将大小都以20G来进行限制。 PC端全平台支持,要求支持Windows,Mac,Linu…

linux操作系统实用教程课后答案,Linux操作系统案例教程课后习题答案

Linux操作系统案例教程课后习题答案 (3页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 11.90 积分 Linux操作系统案例教程课后习题答案第一章一 1.(D) 2.(B,C) 3.(A,B,D)4.(A,C,D ) …

第一章 Linux操作系统概述

接下来我将根据《Linux C编程完全解密》这本书,整理Linux系列相关笔记,并写成文章。本文将是该系列文章的第一篇。 第1章 Linux操作系统概述 1.1 认识Linux操作系统 1.1.1 Linux操作系统发展背景 Linux操作系统核心最早是由芬兰的Linus Torvalds于199…

SRE运维工程师笔记-安装linux系统(国产统信UOS操作系统)

SRE运维工程师笔记-安装linux系统(国产统信UOS操作系统) 1. 安装统信UOS系统1.1 针对统信UOS操作系统创建虚拟机环境1.2 安装国产统信UOS操作系统 1. 安装统信UOS系统 1.1 针对统信UOS操作系统创建虚拟机环境 简单介绍一下国产统信系统的安装&#xff…

Linux操作系统——定制自己的 Linux 系统

文章目录 22 定制自己的 Linux 系统22.1 基本介绍22.2 基本原理22.3 制作 min linux 思路分析22.4 操作步骤 22 定制自己的 Linux 系统 22.1 基本介绍 通过裁剪现有 Linux 系统(CentOS7.6),创建属于自己的 min Linux 小系统,可以加深我们对 linux 的理…

linux系统下的基本操作

Linux 操作系统 1. Linux操作系统认知 1.1 操作系统(Operation System简称OS) 定义 操作系统是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控…

Linux 系统相关介绍

Linux 系统相关说明 Linux 内核版本 没有图形化页面 稳定版 : 面向普通用户 开发版 : 面向开发人员 Linux 发行版 在内核版本的基础上, 增加比如桌面/音乐播放器等应用软件的系统 (不同公司的发行版, 名称不同)

讲讲Linux系统工程师的职业规划

时至今日,Linux操作系统越来越成为主流的桌面操作系统,自从在一年前看到了编程大神王垠写的一篇文章——完全用Linux工作,我决定学习使用Linux操作系统。因Windows在服务器领域的份额越来越低,学习具有安全和高效等特点的Linux操作…

Linux系统编程之进程退出,父进程等待子进程退出

1.首先讲一下进程的退出 进程的退出分为正常退出和异常退出: 正常退出: (1)main函数调用return (2)进程调用exit(),标准C库 (3)进程调用_exit()或_Exit(),属于系统调用 (4)进程最后一…

linux开发工程师主要是干什么的?

转载自:http://emb.hqyj.com/linux/10328.html 作者:清华远见 在新手眼里,大多数都不知道linux开发工程师主要是干什么的。其实linux开发工程师的主要工作内容有很多,需要学习的知识点也挺多的。学习这些东西以后,就可…

Linux 下怎么查看服务器的cpu和内存的硬件信息

一、top命令 top # 实时显示进程状态用户 和 查看CPU利用率 二、查看总内存的方法: free命令主要用于显示内存数量,如下图中内容所表示 free -h 命令 free -m 命令

如何通过命令查看服务器的内存条使用情况

其实就一个命令就搞定了:dmidecode。 最常用的选项就是用 -t 或者 --type 来限定关键字: bios, system, baseboard, chassis, processor, memory, cache, connector, slot 关于这些关键字可以百度是什么意思, 或者去看man手册页,这…

Linux 查看服务器内存、CPU、网络等占用情况的命令--汇总

搭建测试环境过程中,需要对正在使用的aws服务器,查看它在运行脚本,启动脚本时的内存,CPU,网络等使用情况 1、查看物理CPU个数:cat cat /proc/cpuinfo | grep "physical id" | sort | uniq | w…

服务器显示内存不足怎么查看,怎么查看服务器总内存

怎么查看服务器总内存 内容精选 换一换 华为云帮助中心,为用户提供产品简介、价格说明、购买指南、用户指南、API参考、最佳实践、常见问题、视频帮助等技术文档,帮助您快速上手使用华为云服务。 当您购买的云服务器规格无法满足业务需要时,可…

Linux查看服务器内存、磁盘、cpu、网络占用、端口占用情况

1、查看物理CPU个数:cat cat /proc/cpuinfo | grep "physical id" | sort | uniq | wc -l2、查看服务器CPU内核个数:cat 每个物理CPU中core的个数(即核数) cat /proc/cpuinfo | grep "cpu cores" | uniq 3…