从 Python 中的字符串中提取子字符串

Vaibhav Vaibhav 2023年10月10日
  1. 在 Python 中使用字符串切片提取子字符串
  2. 在 Python 中使用 slice() 构造函数提取子字符串
  3. 在 Python 中使用正则表达式提取子字符串
从 Python 中的字符串中提取子字符串

字符串是一个字符序列。无论我们从事软件开发还是竞争性编程,我们始终都在处理字符串。有时,在编写程序时,我们必须访问字符串的子部分。这些子部分通常称为子字符串。子字符串是字符串的子集。

在 Python 中,我们可以使用字符串切片或使用正则表达式或 regex 轻松完成此任务。

在 Python 中使用字符串切片提取子字符串

在 Python 中,有几种方法可以进行字符串切片。索引是最基本,最常用的方法。请参考以下代码。

myString = "Mississippi"
print(myString[:])  # Line 1
print(myString[4:])  # Line 2
print(myString[:8])  # Line 3
print(myString[2:7])  # Line 4
print(myString[4:-1])  # Line 5
print(myString[-6:-1])  # Line 6

输出:

Mississippi
issippi
Mississi
ssiss
issipp
ssipp

在上面的代码中,我们在存储字符串的变量的末尾添加了 [] 括号。我们使用此符号进行索引。在这些括号内,我们添加了一些表示索引的整数值。

这是方括号 [start : stop : step] 的格式(以冒号(:)分隔)。

默认情况下,start 的值是 0 或第一个索引,stop 的值是最后一个索引,step 的值是 1start 代表子字符串的开始索引,stop 代表子字符串的结束索引,step 代表在每个索引之后递增的值。

返回的子字符串实际上在 start 索引和 stop - 1 索引之间,因为在 Python 中索引从 0 开始。因此,如果我们想从 Mississippi 中检索 Miss,则应使用 [0 : 4]

方括号不能为空。如果要使用默认值,则应在所需数量的冒号:之间添加空格,以指出要引用的参数。请参考以下列表以更好地理解。

  • [:] - > 返回整个字符串。
  • [4 : ] - > 返回从索引 4 到最后一个索引的子字符串。
  • [ : 8] - > 返回从索引 0 到索引 7 的子字符串。
  • [2 : 7] - > 返回从索引 2 到索引 6 的子字符串。
  • [4 : -1] - > 返回从索引 4 到倒数第二个索引的子字符串。-1 可用于定义 Python 中的最后一个索引
  • [-6 : -1] - > 返回从结尾的第六个索引到倒数第二个索引的子字符串。

在 Python 中使用 slice() 构造函数提取子字符串

无需在括号内提及索引,我们可以使用 slice() 构造函数来创建 slice 对象,以对字符串或任何其他序列(如列表或元组)进行切片。

slice(start, stop, step) 构造函数接受三个参数,即 startstopstep。它们的含义与上面解释的完全相同。

与方括号表示法相比,切片的工作方式略有不同。切片对象放在字符串变量括号内,例如 myString[<'slice' object>]

如果将单个整数值(例如 x)提供给 slice() 构造函数,并进一步用于索引切片,则会检索从索引 0 到索引 x - 1 的子字符串。请参考以下代码。

myString = "Mississippi"
slice1 = slice(3)
slice2 = slice(4)
slice3 = slice(0, 8)
slice4 = slice(2, 7)
slice5 = slice(4, -1)
slice6 = slice(-6, -1)
print(myString[slice1])
print(myString[slice2])
print(myString[slice3])
print(myString[slice4])
print(myString[slice5])
print(myString[slice6])

输出:

Mis
Miss
Mississi
ssiss
issipp
ssipp

收到的输出是不言自明的。索引遵循与括号符号定义相同的规则。

在 Python 中使用正则表达式提取子字符串

对于正则表达式,我们将使用 Python 的内置包 re

import re

string = "123AAAMississippiZZZ123"

try:
    found = re.search("AAA(.+?)ZZZ", string).group(1)
    print(found)
except AttributeError:
    pass

输出:

Mississippi

在上面的代码中,search() 函数搜索在传递的字符串中作为参数提供的模式的第一个位置。它返回一个 Match 对象。Match 对象具有许多定义输出的属性,例如子字符串的 span 或子字符串的开始和结束索引。

print(dir(re.search('AAA(.+?)ZZZ', string))) 将输出 Match 对象的所有属性。请注意,某些属性可能会丢失,因为使用 dir() 时会调用 __dir__() 方法,并且此方法返回所有属性的列表。而且此方法是可编辑的或可重写的。

作者: Vaibhav Vaibhav
Vaibhav Vaibhav avatar Vaibhav Vaibhav avatar

Vaibhav is an artificial intelligence and cloud computing stan. He likes to build end-to-end full-stack web and mobile applications. Besides computer science and technology, he loves playing cricket and badminton, going on bike rides, and doodling.

相关文章 - Python String