Como Converter string em Caixa Baixa em C++

Jinku Hu 11 dezembro 2023
Como Converter string em Caixa Baixa em C++

Neste artigo, introduziremos como converter a string para a minúscula em C++.

A primeira coisa a se perguntar antes de fazer a conversão de string em C++ é que tipo de codificação tem minha string de entrada? Porque se você utilizar std::lower com caracteres de codificação multi-byte, então você definitivamente obterá o código buggy.

Mesmo que a seguinte função pareça uma boa implementação da conversão em minúsculas std::string, mas ela não converte todos os caracteres para minúsculas porque sua codificação é UTF-8.

#include <algorithm>
#include <iostream>

std::string toLower(std::string s) {
  std::transform(s.begin(), s.end(), s.begin(),
                 [](unsigned char c) { return std::tolower(c); });
  return s;
}

int main() {
  std::string string1 = u8"ÅSH to LoWer WÅN";
  std::cout << "input string:  " << string1 << std::endl
            << "output string: " << toLower(string1) << std::endl;
  return 0;
}

O código acima funciona bem para as strings ASCII e algumas outras strings não ASCII também, mas uma vez que se dá uma entrada um pouco incomum, digamos alguns símbolos em latim, a saída não seria satisfatória.

Resultado:

input string:  ÅSH to LoWer WÅN
output string: Åsh to lower wÅn

É incorreto, pois deveria ter baixado o símbolo Å para å. Então, como podemos resolver este problema para obter a saída correta?

A melhor maneira portátil de fazer isso é utilizar a biblioteca ICU (International Components for Unicode), que é suficientemente madura para oferecer estabilidade, amplamente acessível, e manterá seu código em todas as plataformas.

Só precisamos incluir os seguintes cabeçalhos em nosso arquivo fonte. Há uma boa chance de que estas bibliotecas já estejam incluídas e disponíveis em sua plataforma, portanto, as amostras de código devem funcionar bem. Mas se você obtiver erros IDE/tempo de compilação, consulte as instruções para baixar a biblioteca no site de documentação da ICU.

#include <unicode/locid.h>
#include <unicode/unistr.h>
#include <unicode/ustream.h>

Agora que incluímos cabeçalhos, podemos escrever std::string em código de conversão em letras minúsculas, como segue:

#include <unicode/locid.h>
#include <unicode/unistr.h>
#include <unicode/ustream.h>

#include <iostream>

int main() {
  std::string string1 = u8"ÅSH to LoWer WÅN";
  icu::UnicodeString unicodeString(string1.c_str());
  std::cout << "input string:  " << string1 << std::endl
            << "output string: " << unicodeString.toLower() << std::endl;
  return 0;
}

Note que devemos compilar este código com as seguintes bandeiras de compilação para incluir as dependências da biblioteca da ICU:

g++ sample_code.cpp -licuio -licuuc -o sample_code

Executar o código, e obtemos a saída correta como esperado:

input string:  ÅSH to LoWer WÅN
output string: åsh to lower wån

A mesma função pode processar algum idioma diferente que normalmente não esperamos como entrada do usuário, e também podemos especificar explicitamente o locale como parâmetro para a função toLower:

#include <iostream>
#include <unicode/unistr.h>
#include <unicode/ustream.h>
#include <unicode/locid.h>

int main() {
    std::string string2 = "Κάδμῳ ἀπιϰόμενοι.. Ελληνας ϰαὶ δὴ ϰαὶ γράμματα, οὐϰ ἐόντα πρὶν Ελλησι";
    icu::UnicodeString unicodeString2(string2.c_str());
    std::cout  << unicodeString2.toLower("el_GR") << std::endl;
    return 0;
}
Autor: Jinku Hu
Jinku Hu avatar Jinku Hu avatar

Founder of DelftStack.com. Jinku has worked in the robotics and automotive industries for over 8 years. He sharpened his coding skills when he needed to do the automatic testing, data collection from remote servers and report creation from the endurance test. He is from an electrical/electronics engineering background but has expanded his interest to embedded electronics, embedded programming and front-/back-end programming.

LinkedIn Facebook

Artigo relacionado - C++ String