在 Java 中以 UTF-8 编码字符串

Rupam Yadav 2023年10月12日
  1. 通过将字符串转换为字节数组并使用 new String() 将字符串编码为 UTF-8
  2. 使用 StandardCharsets.UTF_8.encodeStandardCharsets.UTF_8.decode(byteBuffer) 将字符串编码为 UTF-8
  3. 使用 Files.readString() 将文件中的字符串编码为 UTF-8
在 Java 中以 UTF-8 编码字符串

当我们使用字符串时,我们需要使用编码和解码的概念,并且我们希望将该字符串转换为另一个字符集。

UTF-8 是 Unicode Transformation Format - 8 bit 的缩写,是一种可变宽度标准,它为每个代码点或字符分配从 1 到 4 的不同字节数。

下面我们看看如何将字符串和文件的内容编码为 UTF-8 标准。

通过将字符串转换为字节数组并使用 new String() 将字符串编码为 UTF-8

我们首先在第一种方法中将字符串转换为字节数组,并使用 UTF-8 编码创建字符串。

我们创建一个包含日文字符的字符串 japaneseString。接下来,我们将字符串转换为 byte 数组,因为我们无法将字符串直接编码为 UTF-8。japaneseString.getBytes() 返回 byte 类型的数组。

现在我们使用 new String() 创建一个新字符串并传入两个参数,第一个参数是 byte 数组 japaneseBytesArray,第二个参数是我们要使用的编码格式。

我们使用 StandardCharsets 类来获取编码字符集并访问 UTH_8 字段。encodedString 包含一个用 UTF-8 编码的字符串。

import java.nio.charset.StandardCharsets;

public class JavaExample {
    public static void main(String[] args) {

        String japaneseString = "これはテキストです";
        byte[] japaneseBytesArray = japaneseString.getBytes();

        String encodedString = new String(japaneseBytesArray, StandardCharsets.UTF_8);

        System.out.println(encodedString);
    }

}

输出:

これはテキストです

使用 StandardCharsets.UTF_8.encodeStandardCharsets.UTF_8.decode(byteBuffer) 将字符串编码为 UTF-8

我们可以使用 StandardCharsets 类将字符串编码为指定的字符集,如 UTF-8。

我们创建一个 japaneseString,然后调用 charsets 类型的 StandardCharsets.UTF_8encode()。在 encode() 方法中,我们传递 japaneseString,返回一个 ByteBuffer 对象。

该字符串目前是一个 ByteBuffer 的形式,所以我们调用 StandardCharsets.UTF_8decode() 方法,它接受 ByteBuffer 对象作为参数,最后,我们将结果转换为使用 toString() 的字符串。

import java.nio.ByteBuffer;
import java.nio.charset.StandardCharsets;

public class JavaExample {
    public static void main(String[] args) {

        String japaneseString = "これはテキストです";
        ByteBuffer byteBuffer = StandardCharsets.UTF_8.encode(japaneseString);

        String encodedString = StandardCharsets.UTF_8.decode(byteBuffer).toString();

        System.out.println(encodedString);
    }

}

输出:

これはテキストです

使用 Files.readString() 将文件中的字符串编码为 UTF-8

在最后一个示例中,我们不是将单个字符串编码为 UTF-8 格式,而是读取一个文件并对文件中的所有字符串进行编码。

首先,我们创建一个文本文件并添加一些文本以使用 UTF-8 标准进行编码。要获取文件的路径,我们使用 Paths.get() 并将文件的路径作为返回 Path 对象的参数传入。

我们调用 Files 类的 readString() 方法,它接受两个参数,第一个参数是 Path 对象,第二个参数是我们使用 StandardCharsets.UTF_8 访问的字符集。

我们得到编码字符串 readString 并将其打印在输出中。

import java.io.IOException;
import java.nio.charset.StandardCharsets;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;

public class JavaExample {
  public static void main(String[] args) {
    try {
      Path path = Paths.get(
          "C:\\Users\\User1\\IdeaProjects\\Java Examples\\src\\main\\java\\example_file.txt");
      String readString = Files.readString(path, StandardCharsets.UTF_8);
      System.out.println(readString);
    } catch (IOException e) {
      e.printStackTrace();
    }
  }
}

输出:

これはテキストです
Tämä on tekstiä
作者: Rupam Yadav
Rupam Yadav avatar Rupam Yadav avatar

Rupam Saini is an android developer, who also works sometimes as a web developer., He likes to read books and write about various things.

LinkedIn

相关文章 - Java String