从 Python 中的字符串中删除 HTML 标记

Fariba Laiq 2023年10月10日
  1. 在 Python 中使用正则表达式从字符串中删除 HTML 标签
  2. 在 Python 中使用 BeautifulSoup 从字符串中删除 HTML 标签
  3. 在 Python 中使用 xml.etree.ElementTree 从字符串中删除 HTML 标签
从 Python 中的字符串中删除 HTML 标记

在本指南中,我们将学习并应用一些方法来从字符串中删除 HTML 标记。我们将使用正则表达式 BeautifulSoup 和 XML 元素树。

在 Python 中使用正则表达式从字符串中删除 HTML 标签

因为 HTML 标签总是包含符号 <>。我们将导入内置的 re 模块(正则表达式)并使用 compile() 方法在输入字符串中搜索定义的模式。

在这里,模式 <.*?> 表示标签 <> 内的零个或多个字符,并且匹配尽可能少。

sub() 方法用于将出现的字符串替换为另一个字符串。在这里,它将用空字符串替换找到的匹配项。

示例代码:

# Python 3.x
import re

string = "<h1>Delftstack</h1>"
print("String before cleaning:", string)
to_clean = re.compile("<.*?>")
cleantext = re.sub(to_clean, "", string)
print("String after cleaning:", cleantext)

输出:

#Python 3.x
String before cleaning: <h1>Delftstack</h1>
String after cleaning: Delftstack

在 Python 中使用 BeautifulSoup 从字符串中删除 HTML 标签

BeautifulSoup 是一个 Python 库,用于从 HTML 和 XML 中获取数据。它使用解析器来解析 HTML 和 XML;推荐一个是 lxml

我们需要在继续之前安装两者,使用以下命令:

#Python 3.x
pip install beautifulsoup4
#Python 3.x
pip install lxml

我们导入了 BeautifulSoup 模块并在以下代码中解析了给定的 HTML 字符串。我们使用 text 属性从 HTML 访问文本。

示例代码:

# Python 3.x
from bs4 import BeautifulSoup

string = "<h1>Delftstack</h1>"
print("String after cleaning:", string)
cleantext = BeautifulSoup(string, "lxml").text
print("String after cleaning:", cleantext)

输出:

#Python 3.x
String after cleaning: <h1>Delftstack</h1>
String after cleaning: Delftstack

在 Python 中使用 xml.etree.ElementTree 从字符串中删除 HTML 标签

ElementTree 是一个通过 XML 解析和导航的库。fromstring() 方法将 XML 直接从字符串解析为元素,该元素是解析树的根元素。

itertext() 生成一个文本迭代器,它按文档顺序循环遍历该元素及其所有子元素,返回所有内部文本。通过合并由字符串分隔符分隔的可迭代(输入字符串)的所有组件(内部文本),join() 方法返回一个没有 HTML 标记的字符串。

示例代码:

# Python 3.x
import xml.etree.ElementTree as ET

string = "<h1>Delftstack</h1>"
print("String before cleaning:", string)
tree = ET.fromstring(string)
print("String after cleaning:", "".join(tree.itertext()))

输出:

#Python 3.x
String before cleaning: <h1>Delftstack</h1>
String after cleaning: Delftstack
作者: Fariba Laiq
Fariba Laiq avatar Fariba Laiq avatar

I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.

LinkedIn

相关文章 - Python String