在 Java 中转义 HTML

Zeeshan Afridi 2023年10月12日
  1. 如何转义 HTML 标签
  2. 如何在 Java 中转义 HTML
在 Java 中转义 HTML

本文介绍如何在 Java 中转义 HTML 字符和符号。我们可以使用 Apache commons-textStringEscapeUtils.escapeHtml4(str) 方法来转义 Java 中的 HTML 符号和字符。

如何转义 HTML 标签

我们识别标记及其特征以避免和转义 Java 程序中的 HTML 标记。假设我们有一个 <head> 标签;我们知道以 < 开头并以 > 结尾的东西将是特定场景中的标签。

所以我们可以利用 HTML 标签的这些特性,对 HTML 标签进行转义。为了更好地理解它,让我们看看下面的例子。

<html lang="en-US">
<head>
    <meta http-equiv="content-type" content="text/html; charset=utf-8" />
    <link rel="shortcut icon" href="https://www.w3schools.com/images/w3schools_green.jpg" type="image/x-icon">
</head>

在上面的示例中,我们有多个 HTML 标签,例如 <link><HTML><head><meta>。这些标签是 HTML 标签,每个标签对浏览器都有特殊的意义。

为了更好地理解这一点,你可以转到任何网页,右键单击页面并选择 Inspect 以查看网页的结构,该结构由不同的 HTML 标签组成。

在 HTML 中,每个标签都包含在小于 < 和大于 > 的符号中。所以重要的是要注意这些 <, > 符号有一些特定的含义,如果你在特定代码中使用 HTML 实体名称而不是那些 HTML 字符,浏览器不会隐藏标签,而是它将取代实际文本而不是解释它。

所以用实体名称&lt 替换 <。并将 > 替换为实体名称&gt

&lt;html lang=&quot;en-US&quot;&gt;
&lt;head&gt;
    &lt;meta http-equiv=&quot;content-type&quot; content=&quot;text/html; charset=utf-8&quot; /&gt;
    &lt;link rel=&quot;shortcut icon&quot; href=&quot; https://www.w3schools.com/images/w3schools_green.jpg &quot; type=&quot;image/x-icon&quot;&gt;
&lt;/head&gt;

现在我们已经了解了转义 HTML,让我们了解如何在 Java 中转义 HTML。

如何在 Java 中转义 HTML

如本指南开头所述,我们将使用第三方服务 Apache。它是一个以美国西南部印第安部落命名的软件基金会。

Apache 的开发人员为 Apache 构建了软件,引入了一些非常有用和有用的工具来加快开发过程。

这些有用的工具之一用于转义字符串中的 HTML。你需要做的就是在你的 pom.xml 文件中包含依赖项。

导入 Commons-Text 依赖项以在 Java 中使用 StringEscapeUtils

要使用 StringEscapeUtils,你必须导入 commons-text 依赖项。

<dependency>
	<groupId>org.apache.commons</groupId>
	<artifactId>commons-text</artifactId>
	<version>3.12</version>
</dependency>
  1. 将此依赖项插入你的 POM 中,然后按以下步骤操作。
  2. 我们需要在 Java 中转义 HTML 的方法是 StringEscapeUtils.escapeHtml4()StringEscapeUtils.unescapeHtml4()
  3. 在你的 Java 编译器中编写此代码。
String html = "<html lang=\"en-US\">\r\n"
    + "<head>\r\n"
    + "    <meta http-equiv=\"content-type\" content=\"text/html; charset=utf-8\" />\r\n"
    + "    <link rel=\"shortcut icon\" href=\" https://www.w3schools.com/images/w3schools_green.jpg \" type=\"image/x-icon\">\r\n"
    + "</head>";

// This is used to escape html
String escapedOutput = StringEscapeUtils.escapeHtml4(html);
System.out.println(escapedOutput); // printing the output

String html 只是我们在示例 1 中使用的 HTML 代码片段。

该程序的核心是 StringEscapeUtils.escapeHtml4(html),它负责在此上下文中转义 HTML。StringEscapeUtils 类有不同的方法,但我们将使用 escapeHtml4()

现在,如果你尝试运行上述代码,你将看到在本文第一部分中看到的转义输出。

在 Java 中获取原始的未转义数据

使用相同的 Apache StringEscapeUtils 类,我们可以轻松地将字符串转义为原始形式。为此,你必须在 Java 编译器中使用以下代码。

String html = "<html lang=\"en-US\">\r\n"
    + "<head>\r\n"
    + "    <meta http-equiv=\"content-type\" content=\"text/html; charset=utf-8\" />\r\n"
    + "    <link rel=\"shortcut icon\" href=\" https://www.w3schools.com/images/w3schools_green.jpg \" type=\"image/x-icon\">\r\n"
    + "</head>";

String escapedOutput = StringEscapeUtils.escapeHtml4(html);
String original = StringEscapeUtils.unescapeHtml4(escapedOutput);
System.out.println(original);

在上面的代码中,我们在 escapeHtml4() 之后使用 StringEscapeUtils 类的 unescapeHtml4() 方法将转义数据转换为非转义数据。

运行上面的代码,你会得到这个输出。

<html lang="en-US">
<head>
	<meta http-equiv="content-type" content="text/html; charset=utf-8" />
	<link rel="shortcut icon"
href=" https://www.w3schools.com/images/w3schools_green.jpg " type="image/x-icon"> </head>
作者: Zeeshan Afridi
Zeeshan Afridi avatar Zeeshan Afridi avatar

Zeeshan is a detail oriented software engineer that helps companies and individuals make their lives and easier with software solutions.

LinkedIn