1 字符基础
1.1 单字节字符集(single-byte character set(SBCS))
顾名思义,在这种模式下,所有的字符都只用一个字节表示,常见的如,ASCII
1.2 多字节字符集(multi-byte character set(MBCS))
在Windows中MBCS包含两种字符类型,单字节字符和双字节字符.由于windows使用的多字节字符绝大部分是两个字节长,所以MBCS常被DBCS代替。
1.3 unicode
Unicode是一种所有的字符都使用两个字节编码的编码模式。Unicode字符有时也被称作宽字符,因为它比单子节字符宽(使用了更多的存储空间)。
常见的为utf-8,还有一个比较少用的是utf-16
1.3.1 utf-8 BOM头
在浏览器中或某些文本编辑器中会给utf-8 文本 加上bom头。在程序读取的过程中需要去掉BOM头否则会出现乱码。
BOM 格式为: EF BB BF,10进制格式为:-17 -69 -65
Utf8去BOM头的方法:
string Utf8DeBOM(string s) {
int c1 = s[0];
int c2 = s[1];
int c3 = s[2];
if (c1 == -17 && c2 == -69 && c3 == -65)
{
s = s.substr(3, s.length());
}
return s;
}
2 C/C++/VC++中的字符串
2.1 C中的字符串
C语言中, 没有字符串的数据类型,使用一个以NULL('\0')字符结尾的字符数组来保存字符串。
char* p = "Hello world";
char* p = (char*)malloc (100 * sizeof(char));
char p[100] = "hello world";
2.2 C++ 中的字符串
C++ 语言中有单独字符串类型,在string头文件中,还有对应的宽字符串wstring.
string iStr = "Hello world";
wstring wStr = "Hello world";
2.3 VC ++ 中的字符串
在学Window是开发过程中最头疼的莫过于一堆字符串宏。
类型 MBCS 中含义 Unicode 中含义
TCHAR char wchar_t
WCHAR wchar _twchar_t
LPSTR char* char*
LPCWSTR const wchar_t* const wchar_t*
LPCSTR const char* const char*
LPWSTR wchar_t* wchar_t*
LPTSTR TCHAR* TCHAR*
LPCTSTR const TCHAR* const TCHAR*
char 标准c的字符类型(1Byte)
wchar_t 保存UNICODE字符集的类型(2Byte)
TCHAR的定义如下:
#ifdef UNICODE
typedef wchar_t TCHAR;
#else
typedef char TCHAR;
#endif
再了解一个宏_T(),使用宏_T(),使代码有了unicode的意识。
#ifdef UNICODE
#define _T(x) L##x
#else
#define _T(x) x
3 标准C++ 字符串操作
3.1 构造方法
string(const char *s); //用c字符串s初始化
string(int n,char c); //用n个字符c初始化
此外,string类还支持默认构造函数和复制构造函数,如string s1;string s2="hello";都是正确的写法。当构造的string太长而无法表达时会抛出length_error异常
3.2 操作方法
3.2.1 字符操作
const char &operator[](int n)const; // 索引操作,取单个字符
const char &at(int n)const;// 同上
char &operator[](int n);//同上
char &at(int n);//同上
operator[]和at()均返回当前字符串中第n个字符的位置,但at函数提供范围检查,当越界时会抛出out_of_range异常,下标运算符[]不提供检查访问。
const char *data()const;//返回一个非null终止的c字符数组
const char *c_str()const;//返回一个以null终止的c字符串
int copy(char *s, int n, int pos = 0) const;//把当前串中以pos开始的n个字符拷贝到以s为起始位置的字符数组中,返回实际拷贝的数目
3.2.2 string的特性描述
int capacity()const; //返回当前容量(即string中不必增加内存即可存放的元素个数)
int max_size()const; //返回string对象中可存放的最大字符串的长度
int size()const; //返回当前字符串的大小
int length()const; //返回当前字符串的长度
bool empty()const; //当前字符串是否为空
void resize(int len,char c);//把字符串当前大小置为len,并用字符c填充不足的部分
3.2.3 string类的输入输出操作
string类重载运算符operator>>用于输入,同样重载运算符operator<<用于输出操作。
函数getline(istream &in,string &s);用于从输入流in中读取字符串到s中,以换行符'\n'分开。
3.2.4 string的赋值
string &operator=(const string &s);//把字符串s赋给当前字符串
string &assign(const char *s);//用c类型字符串s赋值
string &assign(const char *s,int n);//用c字符串s开始的n个字符赋值
string &assign(const string &s);//把字符串s赋给当前字符串
string &assign(int n,char c);//用n个字符c赋值给当前字符串
string &assign(const string &s,int start,int n);//把字符串s中从start开始的n个字符赋给当前字符串
string &assign(const_iterator first,const_itertor last);//把first和last迭代器之间的部分赋给字符串
3.2.5 string的连接
string &operator+=(const string &s);//把字符串s连接到当前字符串的结尾
string &append(const char *s); //把c类型字符串s连接到当前字符串结尾
string &append(const char *s,int n);//把c类型字符串s的前n个字符连接到当前字符串结尾
string &append(const string &s); //同operator+=()
string &append(const string &s,int pos,int n);//把字符串s中从pos开始的n个字符连接到当前字符串的结尾
string &append(int n,char c); //在当前字符串结尾添加n个字符c
string &append(const_iterator first,const_iterator last);//把迭代器first和last之间的部分连接到当前字符串的结尾
3.2.6 string的比较
bool operator==(const string &s1,const string &s2)const;//比较两个字符串是否相等
运算符">","<",">=","<=","!="均被重载用于字符串的比较;
int compare(const string &s) const;//比较当前字符串和s的大小
int compare(int pos, int n,const string &s)const;//比较当前字符串从pos开始的n个字符组成的字符串与s的大小
int compare(int pos, int n,const string &s,int pos2,int n2)const;//比较当前字符串从pos开始的n个字符组成的字符串与s中pos2开始的n2个字符组成的字符串的大小
int compare(const char *s) const;
int compare(int pos, int n,const char *s) const;
int compare(int pos, int n,const char *s, int pos2) const;
compare函数在>时返回1,<时返回-1,==时返回0
3.2.7 string的子串
string substr(int pos = 0,int n = npos) const;//返回pos开始的n个字符组成的字符串
3.2.8 string的交换
void swap(string &s2); //交换当前字符串与s2的值
3.2.9 string类的查找函数
int find(char c, int pos = 0) const;//从pos开始查找字符c在当前字符串的位置
int find(const char *s, int pos = 0) const;//从pos开始查找字符串s在当前串中的位置
int find(const char *s, int pos, int n) const;//从pos开始查找字符串s中前n个字符在当前串中的位置
int find(const string &s, int pos = 0) const;//从pos开始查找字符串s在当前串中的位置
//查找成功时返回所在位置,失败返回string::npos的值
int rfind(char c, int pos = npos) const;//从pos开始从后向前查找字符c在当前串中的位置
int rfind(const char *s, int pos = npos) const;
int rfind(const char *s, int pos, int n = npos) const;
int rfind(const string &s,int pos = npos) const;
//从pos开始从后向前查找字符串s中前n个字符组成的字符串在当前串中的位置,成功返回所在位置,失败时返回string::npos的值
int find_first_of(char c, int pos = 0) const;//从pos开始查找字符c第一次出现的位置
int find_first_of(const char *s, int pos = 0) const;
int find_first_of(const char *s, int pos, int n) const;
int find_first_of(const string &s,int pos = 0) const;
//从pos开始查找当前串中第一个在s的前n个字符组成的数组里的字符的位置。查找失败返回string::npos
int find_first_not_of(char c, int pos = 0) const;
int find_first_not_of(const char *s, int pos = 0) const;
int find_first_not_of(const char *s, int pos,int n) const;
int find_first_not_of(const string &s,int pos = 0) const;
//从当前串中查找第一个不在串s中的字符出现的位置,失败返回string::npos
int find_last_of(char c, int pos = npos) const;
int find_last_of(const char *s, int pos = npos) const;
int find_last_of(const char *s, int pos, int n = npos) const;
int find_last_of(const string &s,int pos = npos) const;
int find_last_not_of(char c, int pos = npos) const;
int find_last_not_of(const char *s, int pos = npos) const;
int find_last_not_of(const char *s, int pos, int n) const;
int find_last_not_of(const string &s,int pos = npos) const;
//find_last_of和find_last_not_of与find_first_of和find_first_not_of相似,只不过是从后向前查找
3.2.10 string类的替换函数
string &replace(int p0, int n0,const char *s);//删除从p0开始的n0个字符,然后在p0处插入串s
string &replace(int p0, int n0,const char *s, int n);//删除p0开始的n0个字符,然后在p0处插入字符串s的前n个字符
string &replace(int p0, int n0,const string &s);//删除从p0开始的n0个字符,然后在p0处插入串s
string &replace(int p0, int n0,const string &s, int pos, int n);//删除p0开始的n0个字符,然后在p0处插入串s中从pos开始的n个字符
string &replace(int p0, int n0,int n, char c);//删除p0开始的n0个字符,然后在p0处插入n个字符c
string &replace(iterator first0, iterator last0,const char *s);//把[first0,last0)之间的部分替换为字符串s
string &replace(iterator first0, iterator last0,const char *s, int n);//把[first0,last0)之间的部分替换为s的前n个字符
string &replace(iterator first0, iterator last0,const string &s);//把[first0,last0)之间的部分替换为串s
string &replace(iterator first0, iterator last0,int n, char c);//把[first0,last0)之间的部分替换为n个字符c
string &replace(iterator first0, iterator last0,const_iterator first, const_iterator last);//把[first0,last0)之间的部分替换成[first,last)之间的字符串
3.2.11 string类的插入函数
string &insert(int p0, const char *s);
string &insert(int p0, const char *s, int n);
string &insert(int p0,const string &s);
string &insert(int p0,const string &s, int pos, int n);
//前4个函数在p0位置插入字符串s中pos开始的前n个字符
string &insert(int p0, int n, char c);//此函数在p0处插入n个字符c
iterator insert(iterator it, char c);//在it处插入字符c,返回插入后迭代器的位置
void insert(iterator it, const_iterator first, const_iterator last);//在it处插入[first,last)之间的字符
void insert(iterator it, int n, char c);//在it处插入n个字符c
3.2.12 string类的删除函数
iterator erase(iterator first, iterator last);//删除[first,last)之间的所有字符,返回删除后迭代器的位置
iterator erase(iterator it);//删除it指向的字符,返回删除后迭代器的位置
string &erase(int pos = 0, int n = npos);//删除pos开始的n个字符,返回修改后的字符串
3.2.13 string类的迭代器处理
string类提供了向前和向后遍历的迭代器iterator,迭代器提供了访问各个字符的语法,类似于指针操作,迭代器不检查范围。
用string::iterator或string::const_iterator声明迭代器变量,const_iterator不允许改变迭代的内容。常用迭代器函数有:
const_iterator begin()const;
iterator begin(); //返回string的起始位置
const_iterator end()const;
iterator end(); //返回string的最后一个字符后面的位置
const_iterator rbegin()const;
iterator rbegin(); //返回string的最后一个字符的位置
const_iterator rend()const;
iterator rend(); //返回string第一个字符位置的前面
rbegin和rend用于从后向前的迭代访问,通过设置迭代器string::reverse_iterator,string::const_reverse_iterator实现
3.2.14 字符串流处理
通过定义ostringstream和istringstream变量实现,<sstream>头文件中
例如:
string input("hello,this is a test");
istringstream is(input);
string s1,s2,s3,s4;
is>>s1>>s2>>s3>>s4;//s1="hello,this",s2="is",s3="a",s4="test"
ostringstream os;
os<<s1<<s2<<s3<<s4;
cout<<os.str();
3.2.15 字符串分割函数
vector<string> split(string& str,const char* c)
{
char * p;
vector<string> res;
p = strtok(const_cast<char*>(str.c_str()),c);
while(p!=NULL)
{
res.push_back(p);
p = strtok(NULL,c);
}
return res;
}
3.2.16 字符串替换函数
void Replace(std::string&srcstr,const std::string&oldstr,const std::string&newstr)
{
string::size_type pos=0;
string::size_type a=oldstr.size();
string::size_type b=newstr.size();
while((pos=srcstr.find(oldstr,pos))!=string::npos)
{
srcstr.replace(pos,a,newstr);
pos+=b;
}
}
3.2.17 字符串的Trim方法
std::string TrimLeft(const std::string& str) {
std::string t = str;
for (std::string::iterator i = t.begin(); i != t.end(); i++) {
if (!isspace(*i)) {
t.erase(t.begin(), i);
break;
}
}
return t;
}
std::string TrimRight(const std::string& str) {
if (str.begin() == str.end()) {
return str;
}
std::string t = str;
for (std::string::iterator i = t.end() - 1; i != t.begin(); i--) {
if (!isspace(*i)) {
t.erase(i + 1, t.end());
break;
}
}
return t;
}
std::string Trim(const std::string& str) {
std::string t = str;
std::string::iterator i;
for (i = t.begin(); i != t.end(); i++) {
if (!isspace(*i)) {
t.erase(t.begin(), i);
break;
}
}
if (i == t.end()) {
return t;
}
for (i = t.end() - 1; i != t.begin(); i--) {
if (!isspace(*i)) {
t.erase(i + 1, t.end());
break;
}
}
return t;
}
4 字符串转换
4.1 string, char* , const char* 相互转化
char * s = "hello world";
const char * cs = "world";
string str;
str = s; // char* -> string
s = const_cast<char*>(cs); // const char* -> char*
cs = s;// char* -> const char*
s = const_cast<char*>(str.c_str());// string -> const char* -> char*
4.1 整形和字符串相互转化
// unsigned int to string 。用以取代atoi
static inline string Int2Str(unsigned int value)
{
string result;
stringstream buffer;
buffer << std::dec << value;
buffer >> result;
return result;
}
// string to unsigned int
static inline unsigned int Str2Int(string value)
{
unsigned int result;
stringstream buffer;
buffer << std::dec << value;
buffer >> result;
return result;
}
4.1 16进制 数字和字符串相互转化
// unsigned int to hex string
static inline string Uint2StrHex(unsigned int value)
{
string result;
stringstream buffer;
buffer << hex << value;
buffer >> result;
return result;
}
// hex string to unsigned int
static inline unsigned int StrHex2Uint(string value)
{
unsigned int result;
stringstream buffer;
buffer << hex << value;
buffer >> result;
return result;
}
5 参考资料
http://www.cnblogs.com/fdyang/archive/2012/06/01/2858741.html
http://www.cnblogs.com/sexybear/p/Cpp_stringplus.html
http://www.cnblogs.com/Frandy/archive/2012/04/18/cpp_str_split.html
http://blog.csdn.net/beyondhaven/article/details/6679206
http://www.cnblogs.com/ider/archive/2011/07/22/cpp_cast_operator_part2.html
分享到:
相关推荐
C/C++字符串一般通过char* 或wchar_t*来表示,char*表示的是ANSCII字符串, wchar_t*表示Unicode字符串,Unicode字符串在C/C++中一个字符占用两个字节,ANSII字符串一个字符占用一个字节(中文占用两个字节), ...
hash字符串函数总结,挥泪大放送,绝对全面,各类总结。
C++C字符串总结.pdf
字符串函数整理,总结所有字符串函数。方便查询与记忆。
C 和 C++ 字符串字面量(String Literal)既有相同之处,又有一些区别。了解这些内容对于加深字符串字面量以及相关一些概念的理解、澄清一些常见的概念误区不无助益。本文以普通字符串字面量 "hello" 为例总结说明...
1.5. C字符串函数大全 3 1.6. 字符串遍历 7 1.7. 再谈strxxx() 与_mbsxxx() 8 1.8. Win32 API中的MBCS 和 Unicode的二种字符集 9 1.9. String 和 TCHAR 类型定义 10 1.10. 何时使用TCHAR 和Unicode 11 第二部分 各种...
C 和 C++ 字符串字面量(String Literal)既有相同之处,又有一些区别。了解这些内容对于加深字符串字面量以及相关一些概念的理解、澄清一些常见的概念误区不无助益。本文以普通字符串字面量 "hello" 为例总结说明...
23、编写gbk_strlen函数,计算含有汉字的字符串的长度,汉字作为一个字符处理;已知:汉字编码为双字节,其中 参数里涉及指针,就要考虑该指针是不是一个需要修改的量,如果是,则参数应采用指向指针的指针。 (C语言里...
C/C++是最能体现程序员能力的语言之一,其功能强大,在IT行业的各个方面都有大量的应用。下面这篇文章主要介绍了总结了在C/C++面试中可能会碰到的字符串指针题,需要的朋友可以参考借鉴,下面来一起看看吧。
KMP字符串模式匹配通俗点说就是一种在一个字符串中定位另一个串的高效算法。简单匹配算法的时间复杂度为O(m*n);KMP匹配算法。可以证明它的时间复杂度为O(m+n).。 一.简单匹配算法 先来看一个简单匹配算法的函数: ...
C/C++语言将二维数组作为参数传递容易使人迷惑且易出错,本文将常用的几种方法列出,以方便用时查阅。三种方法总结如下(GCC验证成功): 方法一:形参为二维数组并给定第二维长度 此方法是简单直观的方法,...
功 能: 拷贝一个字符串到另一个,遇到’\0’时停止拷贝,destin要有足够大的空间 用 法: char *stpcpy(char *destin, char *source); 函数名: strcat 功 能: 字符串拼接函数,注意,destin要有足够大的空间 用 法...
作者在网络版C FAQ列表的基础上进行了大幅度的扩充和丰富,结合代码示例,权威而且详细深入地解答了实际学习和工作中最常遇到的495个C语言问题,涵盖了初始化、数组、指针、字符串、内存分配、库函数、C预处理器等...
ANSI:即 char,可用字符串处理函数:strcat( ),strcpy( ), strlen( )等以str打头的函数。 UNICODE:wchar_t是Unicode字符的数据类型,它实际定义在里: typedef unsigned short wchar_t; 另外,在头文件中有这样的...
我们知道,在C++当中要进行格式化字符串,通常采用的是C库函数sprintf或者C++的stringstream,然而两者都有自己的问题,比如C库函数的类型安全问题,sprintf当参数不足,或者参数类型与格式化字符不符是都会发生错误...