Converti stringa in minuscolo in C++

Jinku Hu 11 dicembre 2023
Converti stringa in minuscolo in C++

In questo articolo, introdurremo come convertire una stringa in minuscolo in C++.

La prima cosa da chiedersi prima di eseguire la conversione della stringa in C++ è che tipo di codifica ha la mia stringa di input? Perché se userete std::lower con caratteri di codifica multibyte, allora otterrete sicuramente codice difettoso.

Anche se la seguente funzione sembra un’implementazione accurata della conversione in minuscolo std::string, ma non converte tutti i caratteri in minuscolo perché la sua codifica è UTF-8.

#include <algorithm>
#include <iostream>

std::string toLower(std::string s) {
  std::transform(s.begin(), s.end(), s.begin(),
                 [](unsigned char c) { return std::tolower(c); });
  return s;
}

int main() {
  std::string string1 = u8"ÅSH to LoWer WÅN";
  std::cout << "input string:  " << string1 << std::endl
            << "output string: " << toLower(string1) << std::endl;
  return 0;
}

Il codice sopra funziona bene per le stringhe ASCII e anche per alcune altre stringhe non ASCII, ma una volta che gli dai un input un po’ insolito, diciamo alcuni simboli latini, l’output non sarebbe soddisfacente.

Produzione:

input string:  ÅSH to LoWer WÅN
output string: Åsh to lower wÅn

Non è corretto poiché avrebbe dovuto abbassare il simbolo Å su å. Quindi, come possiamo risolvere questo problema per ottenere l’output corretto?

Il miglior modo portatile per farlo è usare la libreria ICU (International Components for Unicode), che è abbastanza matura da offrire stabilità, ampiamente accessibile e manterrà il tuo codice multipiattaforma.

Abbiamo solo bisogno di includere le seguenti intestazioni nel nostro file sorgente. Ci sono buone probabilità che queste librerie siano già incluse e disponibili sulla tua piattaforma, quindi gli esempi di codice dovrebbero funzionare bene. Ma se si ottengono errori IDE / in fase di compilazione, vedere le istruzioni per scaricare la libreria nel sito Web della documentazione ICU.

#include <unicode/locid.h>
#include <unicode/unistr.h>
#include <unicode/ustream.h>

Ora che abbiamo incluso le intestazioni, possiamo scrivere std::string nel codice di conversione in minuscolo come segue:

#include <unicode/locid.h>
#include <unicode/unistr.h>
#include <unicode/ustream.h>

#include <iostream>

int main() {
  std::string string1 = u8"ÅSH to LoWer WÅN";
  icu::UnicodeString unicodeString(string1.c_str());
  std::cout << "input string:  " << string1 << std::endl
            << "output string: " << unicodeString.toLower() << std::endl;
  return 0;
}

Nota che dovremmo compilare questo codice con i seguenti flag del compilatore per includere le dipendenze della libreria ICU:

g++ sample_code.cpp -licuio -licuuc -o sample_code

Esegui il codice e otteniamo l’output corretto come previsto:

input string:  ÅSH to LoWer WÅN
output string: åsh to lower wån

La stessa funzione può elaborare una lingua diversa che di solito non ci aspettiamo come input dell’utente, e possiamo anche specificare esplicitamente locale come parametro della funzione toLower:

#include <iostream>
#include <unicode/unistr.h>
#include <unicode/ustream.h>
#include <unicode/locid.h>

int main() {
    std::string string2 = "Κάδμῳ ἀπιϰόμενοι.. Ελληνας ϰαὶ δὴ ϰαὶ γράμματα, οὐϰ ἐόντα πρὶν Ελλησι";
    icu::UnicodeString unicodeString2(string2.c_str());
    std::cout  << unicodeString2.toLower("el_GR") << std::endl;
    return 0;
}
Autore: Jinku Hu
Jinku Hu avatar Jinku Hu avatar

Founder of DelftStack.com. Jinku has worked in the robotics and automotive industries for over 8 years. He sharpened his coding skills when he needed to do the automatic testing, data collection from remote servers and report creation from the endurance test. He is from an electrical/electronics engineering background but has expanded his interest to embedded electronics, embedded programming and front-/back-end programming.

LinkedIn Facebook

Articolo correlato - C++ String