java getbytes 乱码_深入解析java String中getBytes()的编码问题

article/2025/11/7 18:13:16

Java服务器后台在和Android端App通信时,遇到了两端关于用MD5加密同一包含中文的字符串结果不一致的问题。

具体问题描述:

Java服务器后台和Android端AS用了同一个MD5的工具类,且两边项目的默认编码都是UTF-8 ,加密纯英文数字的字符串时,结果一致,对同一包含中文的字符串加密,发现结果不一样,这是为什么呢?

工具类MD5Util代码如下:

public classMD5Util {/*** 将byte数组转化为16进制输出

*@parambytes

*@return

*/

public static String convertByteToHexString(byte[] bytes){

String result="";for (int i = 0; i < bytes.length; i++) {int temp=bytes[i]&0xff;

String tempHex=Integer.toHexString(temp);if(tempHex.length()<2){

result+="0"+tempHex;

}else{

result+=tempHex;

}

}returnresult;

}/*** MD5加密

*@parammessage

*@return*@throwsUnsupportedEncodingException*/

public static String md5Jdk(String message) throwsUnsupportedEncodingException{

String temp="";try{

MessageDigest md5Digest=MessageDigest.getInstance("MD5");byte[] encodeMD5Digest=md5Digest.digest(message.getBytes());

temp=convertByteToHexString(encodeMD5Digest);

}catch(NoSuchAlgorithmException e) {

e.printStackTrace();

}returntemp;

}

}

最后问题锁定在:

1618382a6ad1a863a043ce6871d2b934.png

d1e19c8c4f04f6163745145344f12afc.png

IDE的项目默认编码和平台运行环境的编码不是一回事。

改成:message.getBytes("UTF-8");后能解决中文加密不一致的问题。

8cd4fb0c329517fb9a98d66198cde6e8.png

下面,就String的getBytes()方法深入了解下。

String的getBytes()方法是得到一个字符串的字节数组,但特别要注意的是,本方法将返回该操作系统默认的编码格式的字节数组。如果你在使用这个方法时不考虑这一点,你会发现在一个平台上运行良好的系统,放到另一台机器上会产生意想不到的问题。

比如下面的程序:

public classTestCharset {public static voidmain(String[] args) {newTestCharset().execute();

}private voidexecute() {

String s= "Hello!你好!";byte[] bytes =s.getBytes();

System.out.println("bytes lenght is:" +bytes.length);

}

}

在一个中文WindowsXP系统下,运行时,结果为:

bytes lenght is:12

但是如果放到了一个英文的UNIX环境下运行:

$ java TestCharset bytes lenght is:9

如果你的程序依赖于该结果,将在后续操作中引起问题。为什么在一个系统中结果为12,而在另外一个却变成了9?上面已经提到了,该方法是和平台(编码)相关的。

在中文操作系统中,getBytes方法返回的是一个GBK或GB2313的中文编码的字节数组,其中中文字符各占两个字节。而在英文平台中,一般的默认编码是“ISO-8859-1”,每个字符都只取一个字节(而不管是否非拉丁字符)。

Java中的编码支持

Java是支持多国编码的,在Java中,字符都是以Unicode进行存储的,比如,“你”字的Unicode编码是“4f60”,我们可以通过下面的实验代码来验证:

public classTestCharset {public static voidmain(String[] args) {char c = '你';int i =c;

System.out.println(c);

System.out.println(i);

}

}

不管你在任何平台上执行,都会有相同的输出:

20320

20320就是Unicode “4f60”的整数值。其实,你可以反编译上面的类,可以发现在生产的.calss文件中字符“你”(或者其它任何中文字串)本身就是以Unicode编码进行存储的:

char c = '/u4F60'; ... ...

即使你知道了编码的编码格式,比如:

javac -encoding GBK TestCharset.java

编译后生成的.class文件中仍然是以Unicode格式存储中文字符或字符串的。

所以。为了避免这种问题,建议大家都在编码中使用String.getBytes(String charset)方法。

下面我们将从字串分别提取ISO-8859-1和GBK两种编码格式的字节数组,看看会有什么结果:

public classTestCharset {public static voidmain(String[] args) {newTestCharset().execute();

}private voidexecute() {

String s= "Hello!你好!";byte[] bytesISO8859 = null;byte[] bytesGBK = null;try{

bytesISO8859= s.getBytes("iso-8859-1");

bytesGBK= s.getBytes("GBK");

}catch(java.io.UnsupportedEncodingException e) {

e.printStackTrace();

}

System.out.println("-------------- /n 8859 bytes:");

System.out.println("bytes is: " +arrayToString(bytesISO8859));

System.out.println("hex format is:" +encodeHex(bytesISO8859));

System.out.println();

System.out.println("-------------- /n GBK bytes:");

System.out.println("bytes is: " +arrayToString(bytesGBK));

System.out.println("hex format is:" +encodeHex(bytesGBK));

}public static final String encodeHex(byte[] bytes) {

StringBuffer buff= new StringBuffer(bytes.length * 2);

String b;for (int i = 0; i < bytes.length; i++) {

b=Integer.toHexString(bytes[i]);//byte是两个字节的, 而上面的Integer.toHexString会把字节扩展为4个字节

buff.append(b.length() > 2 ? b.substring(6, 8) : b);

buff.append(" ");

}returnbuff.toString();

}public static final String arrayToString(byte[] bytes) {

StringBuffer buff= newStringBuffer();for (int i = 0; i < bytes.length; i++) {

buff.append(bytes[i]+ " ");

}returnbuff.toString();

}

}

执行结果:

-------------- /n 8859bytes:

bytes is:72 101 108 108 111 33 63 63 63hex format is:48 65 6c 6c 6f 213f 3f 3f-------------- /n GBK bytes:

bytes is:72 101 108 108 111 33 -60 -29 -70 -61 -93 -95hex format is:48 65 6c 6c 6f 21 c4 e3 ba c3 a3 a1

可见,在s中提取的8859-1格式的字节数组长度为9,中文字符都变成了“63”,ASCII码为63的是“?”,一些国外的程序在国内中文环境下运行时,经常会出现乱码,上面布满了“?”,就是因为编码没有进行正确处理的结果。

而提取的GBK编码的字节数组中正确得到了中文字符的GBK编码。字符“你”、“好”、“!”的GBK编码分别是:“c4e3”、“bac3”、“a3a1”。得到了正确的以GBK编码的字节数组,以后需要还原为中文字串时,可以使用下面方法:

new String(byte[] bytes, String charset)

如果此文对您有帮助,微信打赏我一下吧~


http://chatgpt.dhexx.cn/article/fbw41LHf.shtml

相关文章

java getbytes 长度_JAVA中的getBytes()方法

在Java中,String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同情况下,返回的东西不一样! String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示,如: Java代码 byte[] b_gbk = "深"…

getBytes方法

字符串中的字符变成一位一位的01比特流 一个英文字符占8比特&#xff0c;也就是一个字节 一个中文字符占24比特&#xff0c;也就是3个字节&#xff08;其实不同编码方式&#xff0c;占几个字节不一样&#xff0c;我们这里采取的UTF-8编码方式&#xff0c;具体可以看下图&…

最全微信小程序源码项目开发代码合集

小程序源码是用PHP和Java编程语言编写的程序&#xff0c;可以包含在HTML页面中&#xff0c;就像图像包含在页面中一样。您在本教程中构建的应用程序向您展示了如何在IDE中构建和部署微信小程序源码。      源码&#xff1a;y.wxlbyx.icu      创建或导入Applet源文件  …

智慧外链微信小程序源码1.8版本

好不容易搞到的一套最新版的&#xff0c;又废了老大劲搭建了起来&#xff0c;想用于抖音跳转微信加好友使用&#xff0c;不知道是不是哪里没操作对&#xff0c;没达到想要的效果 现在分享出来给大家&#xff0c;人多力量大&#xff0c;跑起来的可以分享一下经验 前端、后端模块…

最新抓取微信小程序源码教程+附逆向工具WxappUnpacker

正文: 文章目录 前言一、工具准备&#xff08;免费&#xff09; 1 解密工具2 逆向工具二、解密小程序 1.确认小程序包位置2.打开一个小程序3.解密小程序包三、逆向小程序 1、检查nodejs2、安装依赖3、正式逆向 前言 想成为一名微信小程序的开发者&#xff0c;前端思路的学习…

云开发多功能工具箱微信小程序源码/带流量主微信小程序源码

☑️ 编号&#xff1a;ym398 ☑️ 品牌&#xff1a;无 ☑️ 语言&#xff1a;微信小程序 ☑️ 大小&#xff1a;2MB ☑️ 类型&#xff1a;云开发多功能工具箱 ☑️ 支持&#xff1a;微信小程序 &#x1f389; 欢迎关注(发消息才不限制)&#xff0c;私信&#xff0c;领取 &…

2048微信小程序源码

2048微信小程序效果 布局页面 页面结构 <view class"action_cavas" bindtouchstart"tapStart" bindtouchmove"tapMove" bindtouchend"tapEnd"> <view class"score"><view class"title">2048<…

微信小程序源码获取(附工具的下载)

在很多时候我们需要对微信小程序的页面样式进行借鉴。所以我们需要对它进行反向破解。下面是反向破解的流程图 第一种是对微信电脑桌面小程序进行破解&#xff1a; 只要你登录电脑wx并使用过小程序&#xff0c;那么对应的路径下的WeChat Files\Applet下就会产生很多.wxapkg结…

微信小程序源码反编译

一、前言 我百度了各种关于小程序地反编译教程&#xff0c;但是感觉都不太适合像我这样地初学小白&#xff0c;踩了挺多坑。在这里把我重新简化好的&#xff0c;快速地获取一个微信小程序源码的方式记录下来。 二、简单聊一下xxxxx.wxapkg 先来想想一个很简单的问题&#xf…

一键生成动漫头像微信小程序源码

一键生成动漫头像微信小程序源码&#xff0c;只需要上传一张图片&#xff0c;即可在线由AI生成一张动漫头像&#xff0c;非常的Nice&#xff01; PS&#xff1a;使用国一个免费AI接口&#xff0c;不保证该接口能永久使用。 下载 https://pan.baidu.com/s/1P6yyjNdi1-HiLi7aMdnV…

1000个微信小程序源码分享

文章目录 微信小程序源代码获取开发账号注册 小程序部分源码展示程序展示 微信小程序 现在的微信小程序非常火爆&#xff0c;网上也有很多学习资源&#xff0c;但是源码资源还是很少的。其实在学习开发微信小程序的时候如果有源码可以供我们借鉴&#xff0c;学习效率也会成倍的…

2048小游戏微信小程序源码

哈喽&#xff01;大家好&#xff0c;我是HappyGirl快乐女孩&#xff0c;最爱海贼王&#x1f49e;&#x1f49e;&#x1f49e; 是一位爱好技术的【技术Fans】&#xff01;&#x1f61c;&#x1f61c;&#x1f61c; &#x1f49e;&#x1f49e;&#x1f49e; 如果有对技术感兴趣的…

发卡系统微信小程序源码

发卡系统微信小程序源码&#xff0c;带流量主广告。源码花钱买来的&#xff0c;已测试完美运行&#xff0c;搭建简单&#xff0c;功能完善。 可开流量主&#xff0c;看广告领取&#xff0c;也可以直接对接官方支付&#xff0c;非云开发。 下载&#xff1a; https://pan.baidu.c…

Github微信小程序源码

微信小程序开发目前可以说是非常火热的&#xff0c;很多小伙伴都在学习这方面的知识。本文将为大家带来众多微信小程序的实例源码&#xff0c;小伙伴们可以根据源码来进行进一步学习。 源码使用方法&#xff1a; 1、克隆项目代码到本地&#xff08;git应该都要会哈&#xff0…

天气微信小程序源码,附上线教程

博主之前发布过一篇文章&#xff0c;微信小程序源码合集500套。不少友友反馈很多都用不了&#xff0c;这里博主给大家道个歉&#xff0c;因为博主也是花钱网上收集到的源码&#xff0c;来给大家免费下载&#xff0c;内容之多也不可能一个个去测试它的可用性。而且博主发现很多对…

获取微信小程序源码教程

最近在研究微信小程序&#xff0c;网上很多的小程序都是可以借鉴的&#xff0c;那么如何获取源码就很重要了 目录 1.安装对应环境 &#xff08;Node,js&#xff09; 2.下载反编译脚本 3.下载安卓模拟器获取微信小程序反编译文件 4.反编译 1.安装对应环境 &#xff08;Node…

100个2022实用微信小程序源码分享

微信小程序 微信小程序已经火爆到人人开发&#xff0c;人人都是码农&#xff0c;网上也有很多学习资源&#xff0c;但是源码资源还是很少的。其实在学习开发微信小程序的时候如果有源码可以供我们借鉴&#xff0c;学习效率也会成倍的增加。 无论是前端开发&#xff0c;还是后端…

抓取微信小程序源码教程,扒微信小程序文件等

前言&#xff1a; 想成为一名微信小程序的开发者&#xff0c;前端思路的学习和安全意识是非常有必要的&#xff0c;故务必掌握小程序反编译技能。这里用到了2个工具《包解密》与《反编译》&#xff08;非原创&#xff0c;均来自网上的大佬&#xff09;&#xff0c;特别适合新手…

2022 新版UI界面 影视微信小程序源码 附教程

2022 新版UI界面 影视微信小程序源码 附教程 源码简介源码演示源码下载 源码简介 2022 新版UI界面 影视微信小程序源码 附教程 环境PHP7.0 — fileinfo–Redis–SG11 MySQL5.5 Apache2.4 添加站点php7.0—-创建ftp—-上传后端文件《后端文件修改&#xff0c;/maccms/wxapi/con…

微信小程序源码扒取

有时候看到一个有趣的小程序&#xff0c;总想去研究研究。就像把看看他们的源码。本文记录如何获取一个小程序的源码。 获取小程序的包 原理&#xff1a;小程序的包形如&#xff1a;xxxx.wxapkg。在加载一个小程序后&#xff0c;会将小程序的包拉到本地&#xff0c;所以可以通…