GridFS详细分析

article/2025/10/13 16:53:55

GridFS简介

GridFS是MongoDB中的一个内置功能,可以用于存放大量小文件。

http://www.mongodb.org/display/DOCS/GridFS

http://www.mongodb.org/display/DOCS/GridFS+Specification

GridFS使用

MongoDB提供了一个命令行工具mongofiles可以来处理GridFS,在bin目录下。

列出所有文件:

mongofiles list

上传一个文件:

mongofiles put xxx.txt

下载一个文件:

mongofiles get xxx.txt

查找文件:

mongofiles search xxx    //会查找所有文件名中包含“xxx”的文件

mongofiles list xxx //会查找所有文件名以“xxx”为前缀的文件

参数说明:

–d 指定数据库 ,默认是fs,Mongofiles list –d testGridfs

-u –p 指定用户名,密码

-h  指定主机

-port 指定主机端口

-c 指定集合名,默认是fs

-t 指定文件的MIME类型,默认会忽略

使用MongoVUE来查看,管理GridFS

MongoVUE地址:http://www.mongovue.com/

MongoVUE是个免费软件,但超过15天后功能受限。可以通过删除以下注册表项来解除限制:

[HKEY_CURRENT_USER\Software\Classes\CLSID\{B1159E65-821C3-21C5-CE21-34A484D54444}\4FF78130]

把这个项下的值全删掉就可以了。

用java驱动上传下载文件:

下载地址:https://github.com/mongodb/mongo-java-driver/downloads

官方的文档貌似不是最新的,不过通过查看api来使用也不困骓。

http://api.mongodb.org/java/2.7.2/

以下代码基于mongo-2.7.3.jar

 

import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.UnknownHostException;
import java.security.NoSuchAlgorithmException;import com.mongodb.BasicDBObject;
import com.mongodb.DB;
import com.mongodb.DBCollection;
import com.mongodb.DBObject;
import com.mongodb.Mongo;
import com.mongodb.MongoException;
import com.mongodb.gridfs.GridFS;
import com.mongodb.gridfs.GridFSDBFile;
import com.mongodb.gridfs.GridFSInputFile;public class Test {Mongo connection;DB db;DBCollection collection;GridFS myFS;String mongoDBHost = "127.0.0.1";int mongoDBPort = 27017;String dbName = "testGridfs";String collectionName = "fs";public static void main(String[] args) throws MongoException, IOException, NoSuchAlgorithmException {Test t = new Test();String fileName = "F:/CPU.txt";String name = "CPU.txt";//把文件保存到gridfs中,并以文件的md5值为idt.save(new FileInputStream(fileName), name);//据文件名从gridfs中读取到文件GridFSDBFile gridFSDBFile = t.getByFileName(name);if(gridFSDBFile != null){System.out.println("filename:" + gridFSDBFile.getFilename());System.out.println("md5:" + gridFSDBFile.getMD5());System.out.println("length:" + gridFSDBFile.getLength());System.out.println("uploadDate:" + gridFSDBFile.getUploadDate());System.out.println("--------------------------------------");gridFSDBFile.writeTo(System.out);}else{System.out.println("can not get file by name:" + name);}}public Test() throws UnknownHostException, MongoException, NoSuchAlgorithmException {_init();}public Test(String mongoDBHost, int mongoDBPort, String dbName,String collectionName) throws UnknownHostException, MongoException, NoSuchAlgorithmException {this.mongoDBHost = mongoDBHost;this.mongoDBPort = mongoDBPort;this.dbName = dbName;this.collectionName = collectionName;_init();}private void _init() throws UnknownHostException, MongoException, NoSuchAlgorithmException{connection = new Mongo(mongoDBHost, mongoDBPort);db = connection.getDB(dbName);collection = db.getCollection(collectionName);myFS = new GridFS(db);}/*** 用给出的id,保存文件,透明处理已存在的情况* id 可以是string,long,int,org.bson.types.ObjectId 类型* @param in* @param id*/public void save(InputStream in, Object id){DBObject query  = new BasicDBObject("_id", id);GridFSDBFile gridFSDBFile = myFS.findOne(query);if(gridFSDBFile != null)return;GridFSInputFile gridFSInputFile = myFS.createFile(in);gridFSInputFile.save();return;}/*** 据id返回文件* @param id* @return*/public GridFSDBFile getById(Object id){DBObject query  = new BasicDBObject("_id", id);GridFSDBFile gridFSDBFile = myFS.findOne(query);return gridFSDBFile;}/*** 据文件名返回文件,只返回第一个* @param fileName* @return*/public GridFSDBFile getByFileName(String fileName){DBObject query  = new BasicDBObject("filename", fileName);GridFSDBFile gridFSDBFile = myFS.findOne(query);return gridFSDBFile;}
}

 

 

 

 

 

nginx-gridfs模块的安装使用

项目地址:https://github.com/mdirolf/nginx-gridfs

通过nginx-gridfs,可以直接用http来访问GridFS中的文件。

1. 安装

安装各种依赖包:zlib,pcre,openssl

在ubuntu下可能是以下命令:

sudo apt-get install zlib1g-dev            //貌似sudo apt-get install zlib-dev 不能安装

sudo apt-get install libpcre3 libpcre3-dev

sudo apt-get install openssl libssl-dev

安装git(略)

用git下载nginx-gridfs的代码:

git clone git://github.com/mdirolf/nginx-gridfs.git

    cd nginx-gridfs

    git submodule init

    git submodule update

下载nginx:

wget http://nginx.org/download/nginx-1.0.12.zip

tar zxvf nginx-1.0.12.zip

cd nginx-1.0.12

 ./configure --add-module=<nginx-gridfs的路径>

make

sudo make install

如果编译出错,则在configure时加上--with-cc-opt=-Wno-error 参数。

2. 配置nginx

在server的配置中加上以下

   location /pics/ {

                gridfs pics

                field=filename

                type=string;

                mongo 127.0.0.1:27017;

        }

上面的配置表示:

数据库是pics,通过文件名filename来访问文件,filename的类型是string

目前只支持通过id和filename来访问文件。

启动nginx:/usr/local/nginx/sbin/nginx

用MongoVUE把一个图片001.jpg上传到pics数据库中。

打开:http://localhost/pics/001.jpg

如果成功,则可以看到显示图片了。

3. nginx-gridfs的不足

没有实现http的range support,也就是断点续传,分片下载的功能。

GridFS实现原理

GridFS在数据库中,默认使用fs.chunks和fs.files来存储文件。

其中fs.files集合存放文件的信息,fs.chunks存放文件数据。

一个fs.files集合中的一条记录内容如下,即一个file的信息如下:

 

{ 
"_id" : ObjectId("4f4608844f9b855c6c35e298"),   	//唯一id,可以是用户自定义的类型
"filename" : "CPU.txt", 	 //文件名
"length" : 778, 	 //文件长度
"chunkSize" : 262144, 	 //chunk的大小
"uploadDate" : ISODate("2012-02-23T09:36:04.593Z"), //上传时间
"md5" : "e2c789b036cfb3b848ae39a24e795ca6", 	 //文件的md5值
"contentType" : "text/plain" 	 //文件的MIME类型
"meta" : null	 //文件的其它信息,默认是没有”meta”这个key,用户可以自己定义为任意BSON对象
}

 

 

 

 

 

对应的fs.chunks中的chunk如下:

 

{ 
"_id" : ObjectId("4f4608844f9b855c6c35e299"), 	 //chunk的id
"files_id" : ObjectId("4f4608844f9b855c6c35e298"), 	//文件的id,对应fs.files中的对象,相当于fs.files集合的外键
"n" : 0, 	 //文件的第几个chunk块,如果文件大于chunksize的话,会被分割成多个chunk块
"data" : BinData(0,"QGV...")	 //文件的二进制数据,这里省略了具体内容
}

 

 

 

 

 

默认chunk的大小是256K。

public static final int DEFAULT_CHUNKSIZE = 256 * 1024;

所以在把文件存入到GridFS过程中,如果文件大于chunksize,则把文件分割成多个chunk,再把这些chunk保存到fs.chunks中,最后再把文件信息存入到fs.files中。

在读取文件的时候,先据查询的条件,在fs.files中找到一个合适的记录,得到“_id”的值,再据这个值到fs.chunks中查找所有“files_id”为“_id”的chunk,并按“n”排序,最后依次读取chunk中“data”对象的内容,还原成原来的文件。

自定义Gridfs的hash函数

尽管从理论上,无论用什么hash函数,都有可能出现hash值相同,但内容不相同的文件,但是对于GridFS默认使用的md5算法,目前已出现长度和md5值都相同但内容不一样的文件。

如果想要自已改用其它hash算法,可以从驱动入手。因为GridFS在MongoDB中实际也只是两个普通的集合,所以完全可以自已修改驱动,替换下hash算法即可。

目前java版的驱动比较简单,可以很容易修改实现。

但是要注意,这样不符合GridFS的规范了。

注意事项

1. GridFS不自动处理md5相同的文件,对于md5相同的文件,如果想在GridFS中只有一个存储,要用户自已处理。Md5值的计算由客户端完成。

2. 因为GridFS在上传文件过程中是先把文件数据保存到fs.chunks,最后再把文件信息保存到fs.files中,所以如果在上传文件过程中失败,有可能在fs.chunks中出现垃圾数据。这些垃圾数据可以定期清理掉。

 

 

公众号

欢迎关注公众号:横云断岭的专栏,专注分享Java,Spring Boot,Arthas,Dubbo。

横云断岭的专栏


http://chatgpt.dhexx.cn/article/gCnu7D9G.shtml

相关文章

13.MongoDB之Gridfs

参照官网如下(如下链接依次递进)&#xff1a; https://docs.mongodb.com/manual/core/gridfs/ https://docs.mongodb.com/database-tools/mongofiles/#mongodb-binary-bin.mongofiles https://docs.mongodb.com/database-tools/installation/installation/ FS&#xff1a;即文…

MongoDB(四)——GridFS

GridFS MongoDB的一个重要子模块&#xff0c;可基于MongoDB来持久存储文件&#xff0c;并且支持分布式存储和读取。 持久存储&#xff1a;对应瞬时数据如内存&#xff0c;指保存到数据库中&#xff0c;能持久保存。 分布式存储&#xff1a;将数据分散地存储于多个位置。 存在的…

在Keil MDK中无法使用gmtime函数进行时间戳转换

硬件平台STM32&#xff0c;软件平台Keil MDK 5.18 由于项目中需要用到UNIX时间戳和日历的来回转换&#xff0c;于是想到C库函数<time.h>里面有现成的函数可以使用。 于直接使用mktime和gmtime两个函数进行时间戳转换&#xff0c;前者把日历转为时间戳&#xff0c;后者把…

C++中获取日期函数gmtime和localtime区别

函数gmtime和localtime的声明如下&#xff1a; struct tm * gmtime (const time_t * timer); struct tm * localtime (const time_t * timer); 它们均接收一个time_t的const指针类型&#xff0c;time_t类型通常是一个大整数值&#xff0c;该整数值表示自UTC时间1970年1月1日0…

C语言学习笔记---时间函数ctime()和gmtime()

函数原型如下&#xff1a; __CRT_INLINE char *__cdecl ctime(const time_t *_Time);__CRT_INLINE struct tm *__cdecl gmtime(const time_t *_Time);ctime函数 ctime函数可以将当前时间值转换为字符串格式返回。返回的字符串格式为&#xff1a;Www Mmm dd hh:mm:ss yyyy 其中&…

Linux系统编程一:时间和延时、gmtime和localtime函数返回相同

目录 1. 概述2. 延时函数3. 当前时间3.1 时间调用函数3.2 时间转换函数 4. gmtime和localtime函数返回相同测试代码 1. 概述 前面的几篇文章Linux学习笔记一到七&#xff0c;主要是开发环境的搭建&#xff0c;都是一些准备工作。从本篇文章开始&#xff0c;将学习Linux系统编程…

逆向 time.h 函数库 time、gmtime 函数

0x01 time 函数 函数原型&#xff1a;time_t time(time_t *t)函数功能&#xff1a;返回自纪元 Epoch(1970-01-01 00:00:00 UTC)起经过的时间&#xff0c;以秒为单位。如果 seconds 不为空&#xff0c;则返回值也存储在变量 seconds 中C\C 实现&#xff1a; #include <stdio.…

python gmtime_在Python中操作日期和时间之gmtime()方法的使用

在Python中操作日期和时间之gmtime()方法的使用 这篇文章主要介绍了在Python中操作日期和时间之gmtime()方法的使用,是Python入门学习中的基础知识,需要的朋友可以参考下 gmtime()方法转换历元到一struct_time以UTC其中dst的标志值始终为0以秒表示时间。如果不设置秒时或None&a…

gmtime与localtime的区别

目录 gmtime函数 linux环境下&#xff1a; window环境下 localtime函数 gmtime函数 gmtime转换的时间是UTL时间&#xff0c;与北京时间相差了8个小时 如果你想要得到北京时间&#xff0c;不建议你将gmtime转换后的时间直接加上八个小时 linux环境下&#xff1a; 执行结…

【C库函数】strerror函数详解

目录 strerror 函数原型 参数详解 返回值详解 函数讲解 strerror 返回错误码&#xff0c;所对应的错误信息 函数原型 char *strerror( int errnum ); 参数详解 参数errnum解析错误码信息(errno) 返回值详解 strerror函数就是返回这些错误码所对应错误信息的字符串起始地…

详解:strerror函数:将错误码转化为错误信息

对于大家在浏览网页的时候&#xff0c;或多或少的会见识过不少的错误信息&#xff1a;比如&#xff1a;最常见的就是&#xff1a;404 但是&#xff0c;使用strerror函数&#xff0c;可以将错误码转化为错误信息&#xff01;不知道偶然间看见的读者是否有兴趣进行深入研究一下&…

Strerror函数和Perror函数的介绍及使用

Strerror 通过标准错误的标号&#xff0c;获得错误的描述字符串 &#xff0c;将单纯的错误标号转为字符串描述&#xff0c;方便用户查找错误。 需要引用的头文件 #include <errno.h> #include <string.h> 用法&#xff1a;如果调用函数失败&#xff0c;会产生错误码…

strerror函数使用

。 char *strerror(int errnum); 功能&#xff1a;通过标准错误的标号&#xff0c;获得错误的描述字符串 &#xff0c;将单纯的错误标号转为字符串描述。 参数&#xff1a;errnum&#xff1a;最新的错误标号。 返回值&#xff1a;指向错误信息的指针。#include <stdio.h>…

Linux 应用编程之strerror函数

在 Linux 系统下对常见的错误做了一个编号&#xff0c;每一个编号都代表着每一种不同的错误类型&#xff0c;当函数执行发生错误的时候&#xff0c;操作系统会将这个错误所对应的编号赋值给 errno 变量&#xff0c;每一个进程&#xff08;程序&#xff09;都维护了自己的 errno…

C语言函数: 字符串函数及模拟实现strtok()、strstr()、strerror()

C语言函数&#xff1a; 字符串函数及模拟实现strtok()、strstr()、strerror() strstr()函数: 作用&#xff1a;字符串查找。在一串字符串中&#xff0c;查找另一串字符串是否存在。 形参: str2在str1中寻找。返回值是char*的指针 原理&#xff1a;如果在str1中找到了str2&…

【strerror函数的使用】

strerror函数的使用 一&#xff0c;说明二&#xff0c;具体使用场景 一&#xff0c;说明 strerror会返回错误码&#xff0c;我们可以将其翻译成所对应的错误信息&#xff1b; c语言的库函数在运行的时候&#xff0c;如果发生错误&#xff0c;就会将错误码存放在一个变量中&…

strerror 函数

收藏 75 23 strerror编辑 本词条缺少 名片图&#xff0c;补充相关内容使词条更完整&#xff0c;还能快速升级&#xff0c;赶紧来 编辑吧&#xff01; 通过标准错误的标号&#xff0c;获得错误的描述字符串 &#xff0c;将单纯的错误标号转为字符串描述&#xff0c;方便用户查找…

strerror函数介绍

认识strerror 库函数调用失败的时候会产生错误码&#xff0c;而每一个错误码对应着一条错误信息&#xff0c;strerror函数的作用就是将错误码给转化成错误信息。 在C语言中有一条全局的错误码errno&#xff0c;在程序运行过程中&#xff0c;只要库函数调用失败&#xff0c;我们…

strerror perror

strerror这个函数把错误码转化为错误信息,把错误信息的起始地址返回 X86下的代码 #define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h> #include<string.h> int main() { printf("%s\n", strerror(0)); printf("%s\n", strerror(1…

关于strerror

1功能 strerror用于返回错误码信息的首字符的地址。 可以这样理解&#xff0c;函数运行过程中如果失败的话&#xff0c;会返回一个错误码放在errno中&#xff0c;&#xff08;原先设计中就已经存在的&#xff09;调用strerror函数的话&#xff0c;可以打印对应的错误信息 2 …