首页 > 代码库 > springMVC解析带有中文字符的json数据异常

springMVC解析带有中文字符的json数据异常

    最近开发遇到一个bug,异常日志为:nested exception is org.codehaus.jackson.JsonParseException: Invalid UTF-8 start byte 0xbc,从日志上可以看出,springMVC在解析json数据时,发现json数据不是utf-8的格式,这样的结果让我百思不得其解,于是经历下如下的一系列尝试,花了半天时间,才解决这个bug。

背景:

已经在web.xml中配置了如下信息:

 

  <!-- 保证请求为utf-8编码 -->
  <filter>
    <filter-name>encoding</filter-name>
       <filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class>
        <init-param>
            <param-name>encoding</param-name>
            <param-value>UTF-8</param-value>
        </init-param>
        <init-param>
            <param-name>forceEncoding</param-name>
            <param-value>true</param-value>
        </init-param>
  </filter>
  <filter-mapping>
    <filter-name>encoding</filter-name>
    <url-pattern>/*</url-pattern>
  </filter-mapping>

1、怀疑是客户端请求时,body中的数据没有使用utf-8编码

    刚遇到这个问题时,是使用ajax进行的请求,代码如下:

		$.ajax({
			type:"POST",
			url: url,
			async:true, 
			contentType: "application/json; charset=utf-8;",
			data: JSON.stringify(data),
			dataType: "json",
			success:callback,
			error:function(XMLHttpRequest, textStatus, errorThrown) {
				console.log("error:XMLHttpRequest = " + XMLHttpRequest.responseText);
				console.log("error:textStatus = " + errorThrown);
				console.log("error:errorThrown = " + errorThrown);
		    }
		});
    其中data的数据为:{"mobileId":"adea3fee77ef45949a82ab36ae83ec53","watchId":"9a4bc032ae564cc49bff5f976298de40","type":1,"salutation":"监护人"},当salutation修改为英文字符后,请求一切正常,由于这里对contentType的了解不够自信,不敢确定contentType中设置了charset=utf-8就保证了请求中,httpbody的编码就是utf-8编码,于是愚蠢的以为可能是JSON.stringify这个函数在序列化时,引起的编码问题,以为JSON.stringify序列化时,可以设置编码格式,大量百度后无果,以失败告终。

2、编写java应用程序,使用httpclient提交相同的请求

  代码如下:

    public static String doPost(String url, String body) {

        HttpClient hc = HttpClientBuilder.create().build();
        HttpPost post = new HttpPost(url);
        post.addHeader("Content-Type", "application/json");

        try {
    		StringEntity stringEntity = new StringEntity(body,"UTF-8");
    		post.setEntity(stringEntity);
        } catch (Exception e) { 
        	e.printStackTrace();
        }
   
        HttpResponse response = null;
        try {
            response = hc.execute(post);
	        response.getStatusLine().getStatusCode();
	        String responseBody = EntityUtils.toString(response.getEntity());
	        
	        System.out.println(responseBody);
	        printHttpHeaders(response.getAllHeaders());

	        return responseBody;
	        
        } catch (Exception e) {
            e.printStackTrace();
            return null;
        }
    }
   从代码中大家可以看到
    StringEntity stringEntity = new StringEntity(body,"UTF-8");
   因此,httpbody中的参数编码应该为utf-8编码才对,可惜的是,服务器依旧报相同的异常,不过在这次尝试中有意外的收获,当请求部署在linux系统上的tomcat服务器时,能成功,请求本机window上的tomcat服务器时,失败。

3、怀疑是服务器的问题,这次方向对了

    带着这个疑惑,首先怀疑是不是tomcat上有什么配置,可以影响到springmvc的json解析,可惜的是,最终发现tomcat没有这方面的配置。既然是报的Invalid UTF-8 start byte 0xbc,那么只能确定在读取body的字符串时,getbytes()获取的字节值不对了。这个时候联想到,getbytes()的字符编码到底是由什么决定的呢?

   我们知道,getbytes还有这个函数:getBytes(Charset charset),既然是这样,那么就是说java有一个默认的charset决定getbytes是什么编码。顺着这个思路,找到了Charset.defaultCharset(),将这个值输出发现,在window的tomcat上为:gbk,在linux上为utf-8,难怪在linux没有问题,在window上有问题,defaultCharset的值由jvm运行的环境有关系,而jvm的运行环境又由操作系统决定,估计jvm应该是取的操作系统的编码吧。

   然而,在window上的eclipse中运行之前编写的java应用时,输出的确实utf-8,难道defaultCharset还不是有操作系统的编码决定的吗?这个问题在别人的博客中找到的答案,原因是在eclipse中运行时,这个受到了eclipse的影响,那tomcat中的jvm应该还是受操作系统影响的吧。

   既然找到了原因,自然就能解决bug,下面是解决方案。

  其实这个bug导致的原因在于我在filter中,对body数据重新包装了,主要是要在filter中过滤body中的数据,因此加了一个包装器,如果没有这个包装器,编码应该是没有问题的,filter中的包装器代码如下:

class BodyReaderHttpServletRequestWrapper extends HttpServletRequestWrapper {
    
    private final String bodyStr;
    
    public BodyReaderHttpServletRequestWrapper(HttpServletRequest request) throws IOException {
        super(request);
        
        // 将reader中的数据读取出来
        BufferedReader reader = request.getReader();
        StringBuffer buffer = new StringBuffer();
        String line = null;
        while ((line = reader.readLine()) != null) {
            buffer.append(line);
        }
        bodyStr = buffer.toString();
    }
    
    public String getBody() {
        return bodyStr;
    }
    
    @Override
    public BufferedReader getReader() throws IOException {
        return new BufferedReader(new InputStreamReader(getInputStream()));
    }
    
    @Override
    public ServletInputStream getInputStream() throws IOException {
        final ByteArrayInputStream bais = new ByteArrayInputStream(bodyStr.getBytes(<span style="color:#FF0000;">Charset.forName("utf-8")</span>));
        return new ServletInputStream() {
            
            @Override
            public int read() throws IOException {
                return bais.read();
            }
        };
    }
    
}
   由于这里将body中的字节读取出来编程了bodystr,注意上面红色部分那行代码,之前有问题时,没有添加Charset.forName("utf-8"),那么由于在window上的默认编码为gbk,自然new ByteArrayInputStream(bodyStr.getBytes())中的byte编码为gbk,因此在调用filterChain.doFilter(servletRequest, response)时,到达controller的body编码就为gbk,从而导致无法以utf-8的编码解析json数据了,因此这里加上红色部分代码,顺利解决问题。

   这里顺带还有一个猜想,没有验证,springmvc调用对应的json库解析body数据时,因此是根据httpheader中的contentType中的charset决定的。


springMVC解析带有中文字符的json数据异常