Name Mangling in C++
摘要:详细介绍了C++中的Name Mangling的原理和gcc中对应的实现,通过程序代码和nm c++filt等工具来验证这些原理。对于详细了解程序的链接过程有一定的帮助。
Name Mangling概述
大型程序是通过多个模块构建而成,模块之间的关系由makefile来描述。对于由C++语言编制的大型程序而言,也是符合这个规则。程序的构建过程一般为:各个源文件分别编译,形成目标文件。多个目标文件通过链接器形成最终的可执行程序。显然,从某种程度上说,编译器的输出是链接器的输入,链接器要对编译器的输出做二次加工。从通信的角度看,这两个程序需要一定的协议来规范符号的组织格式。这就是Name Mangling产生的根本原因。C++的语言特性比C丰富的多,C++支持的函数重载功能是需要Name Mangling技术的最直接的例子。对于重载的函数,不能仅依靠函数名称来区分不同的函数,因为C++中重载函数的区分是建立在以下规则上的:
函数名字不同 || 参数数量不同||某个参数的类型不同那么区分函数的时候,应该充分考虑参数数量和参数类型这两种语义信息,这样才能为却分不同的函数保证充分性。当然,C++还有很多其他的地方需要Name Mangling,如namespace, class, template等等。
总的来说,Name Mangling就是一种规范编译器和链接器之间用于通信的符号表表示方法的协议,其目的在于按照程序的语言规范,使符号具备足够多的语义信息以保证链接过程准确无误的进行。简单的实验Name Mangling会带了一个很常见的负面效应,就是C语言的程序调用C++的程序时,会比较棘手。因为C语言中的Name Mangling很简单,不如C++中这么复杂。下面的代码用于演示这两种不同点:/**simple_test.c*ademotoshowthatdifferentnamemanglingtechnologyinC++andC*Author:ChaosLee*/#include<stdio.h>intrect_area(intx1,intx2,inty1,inty2){return(x2-x1)*(y2-y1);}intelipse_area(inta,intb){return3.14*a*b;}intmain(intargc,char*argv[]){intx1=10,x2=20,y1=30,y2=40;inta=3,b=4;intresult1=rect_area(x1,x2,y1,y2);intresult2=elipse_area(a,b);return0;}
[lichao@sg01name_mangling]$gcc-csimple_test.c[lichao@sg01name_mangling]$nmsimple_test.o0000000000000027Telipse_area0000000000000051Tmain0000000000000000Trect_area从上面的输出结果上,可以看到使用gcc编译后对应的符号表中,几乎没有对函数做任何修饰。接下来使用g++编译:
[lichao@sg01name_mangling]$nmsimple_test.o0000000000000028T_Z11elipse_areaii0000000000000000T_Z9rect_areaiiiiU__gxx_personality_v00000000000000052Tmain显然,g++编译器对符号的改编比较复杂。所以,如果一个由C语言编译的目标文件中调用了C++中实现的函数,肯定会出错的,因为符号不匹配。简单对_Z9rect_areaiiii做个介绍:
lC++语言中规定 :以下划线并紧挨着大写字母开头或者以两个下划线开头的标识符都是C++语言中保留的标示符。所以_Z9rect_areaiiii是保留的标识符,g++编译的目标文件中的符号使用_Z开头(C99标准)。
l接下来的部分和网络协议很类似。9表示接下来的要表示的一个字符串对象的长度(现在知道为什么不让用数字作为标识符的开头了吧?)所以rect_area这九个字符就作为函数的名称被识别出来了。l接下来的每个小写字母表示参数的类型,i表示int类型。小写字母的数量表示函数的参数列表中参数的数量。l所以,在符号中集成了用于区分不同重载函数的足够的语义信息。如果要在C语言中调用C++中的函数该怎么做?这时候可以使用C++的关键字extern “C”。对应代码如下:/**simple_test.c*ademotoshowthatdifferentnamemanglingtechnologyinC++andC*Author:ChaosLee*/#include<stdio.h>#ifdef__cplusplusextern"C"{#endifintrect_area(intx1,intx2,inty1,inty2){return(x2-x1)*(y2-y1);}intelipse_area(inta,intb){return(int)(3.14*a*b);}#ifdef__cplusplus}#endifintmain(intargc,char*argv[]){intx1=10,x2=20,y1=30,y2=40;inta=3,b=4;intresult1=rect_area(x1,x2,y1,y2);intresult2=elipse_area(a,b);return0;}下面是使用gcc编译的结果:
[lichao@sg01name_mangling]$gcc-csimple_test.c[lichao@sg01name_mangling]$nmsimple_test.o0000000000000027Telipse_area0000000000000051Tmain0000000000000000Trect_area在使用g++编译一次:
[lichao@sg01name_mangling]$g++-csimple_test.c[lichao@sg01name_mangling]$nmsimple_test.oU__gxx_personality_v00000000000000028Telipse_area0000000000000052Tmain0000000000000000Trect_area可见,使用extern “C”关键字之后,符号按照C语言的格式来组织了。
事实上,C标准库中使用了大量的extern “C”关键字,因为C标准库也是可以用C++编译器编译的,但是要确保编译之后仍然保持C的接口而不是C++的接口(因为是C标准库),所以需要使用extern “C”关键字。
下面是一个简单的例子:/**libc_test.c*ademoprogramtoshowthathowthestandardC*libraryarecompiledwhenencounteringaC++compiler*/#include<stdio.h>intmain(intargc,char*argv[]){puts("helloworld.\n");return0;}
搜索一下puts,我们并没有看到extern “C”.奇怪么?
[lichao@sg01name_mangling]$g++-Elibc_test.c|grep'puts'externintfputs(__constchar*__restrict__s,FILE*__restrict__stream);externintputs(__constchar*__s);externintfputs_unlocked(__constchar*__restrict__s,puts("helloworld.\n");搜索一下 extern “C”试下
[lichao@sg01name_mangling]$g++-Elibc_test.c|grep'extern"C"'extern"C"{extern"C"{这是由于extern “C”可以使用{}的形式将其作用域内的函数全部声明为C语言可调用的接口形式。标准
不同编译器使用不同的方式进行name mangling, 你可能会问为什么不将C++的 name mangling标准化,这样就能实现各个编译器之间的互操作了。事实上,在C++的FAQ列表上有对此问题的回答:
"Compilers differ as to how objects are laid out, how multiple inheritance is implemented, how virtual function calls are handled, and so on, so if the name mangling were made the same, your programs would link against libraries provided from other compilers but then crash when run. For this reason, the ARM (Annotated C++ Reference Manual) encourages compiler writers to make their name mangling different from that of other compilers for the same platform. Incompatible libraries are then detected at link time, rather than at run time."
“编译器由于内部实现的不同而不同,内部实现包括对象在内存中的布局,继承的实现,虚函数调用处理等等。所以如果将name mangling标准化了,不错,你的程序确实能够链接成功,但是运行肯定要崩的。恰恰是因为这个原因,ARM鼓励为同一平台提供的不同编译器应该使用不同的name mangling方式。这样在编译的时候,不兼容的库就会被检测到,而不至于链接时虽然通过了,但是运行时崩溃了。”显然,这是基于“运行时崩溃比链接时失败的代价更大”这个原则而考虑的。GCC的name manglingGCC采用IA 64的name mangling方案,此方案定义于Intel IA64 standard ABI.在g++的FAQ列表中有以下一段话:
"GNU C++ does not do name mangling in the same way as other C++ compilers.
This means that object files compiled with one compiler cannot be used with
another”GNU C++的name mangling方案和其他C++编译器方案不同,所以一种编译器生成的目标文件并不能被另外一种编译器生成的目标文件使用。
以下为内置的编码类型:Builtintypesencoding<builtin-type>::=v#void::=w#wchar_t::=b#bool::=c#char::=a#signedchar::=h#unsignedchar::=s#short::=t#unsignedshort::=i#int::=j#unsignedint::=l#long::=m#unsignedlong::=x#longlong,__int64::=y#unsignedlonglong,__int64::=n#__int128::=o#unsigned__int128::=f#float::=d#double::=e#longdouble,__float80::=g#__float128::=z#ellipsis::=u<source-name>#vendorextendedtype操作符编码:
Operator encoding
<operator-name>::=nw#new::=na#new[]::=dl#delete::=da#delete[]::=ps#+(unary)::=ng#-(unary)::=ad#&(unary)::=de#*(unary)::=co#~::=pl#+::=mi#-::=ml#*::=dv#/::=rm#%::=an#&::=or#|::=eo#^::=aS#=::=pL#+=::=mI#-=::=mL#*=::=dV#/=::=rM#%=::=aN#&=::=oR#|=::=eO#^=::=ls#<<::=rs#>>::=lS#<<=::=rS#>>=::=eq#==::=ne#!=::=lt#<::=gt#>::=le#<=::=ge#>=::=nt#!::=aa#&&::=oo#||::=pp#++::=mm#--::=cm#,::=pm#->*::=pt#->::=cl#()::=ix#[]::=qu#?::=st#sizeof(atype)::=sz#sizeof(anexpression)::=cv<type>#(cast)::=v<digit><source-name>#vendorextendedoperator类型编码:
<type>::=<CV-qualifiers><type>::=P<type>#pointer-to::=R<type>#reference-to::=O<type>#rvaluereference-to(C++0x)::=C<type>#complexpair(C2000)::=G<type>#imaginary(C2000)::=U<source-name><type>#vendorextendedtypequalifier下面是一段简单的代码:
/**Author:ChaosLee*Description:Asimpledemotoshowhowtherulesusedtomanglefunctions'nameswork*Date:2012/05/06*/#include<iostream>#include<string>usingnamespacestd;inttest_func(int&tmpInt,constchar*ptr,doubledou,stringstr,floatf){return0;}intmain(intargc,char*argv[]){char*test="test";intintNum=10;doubledou=10.012;stringstr="str";floatf=1.2;test_func(intNum,test,dou,str,f);return0;}
[lichao@sg01name_mangling]$g++-cfunc.cpp[lichao@sg01name_mangling]$nmfunc.cppnm:func.cpp:Fileformatnotrecognized[lichao@sg01name_mangling]$nmfunc.o0000000000000060t_GLOBAL__I__Z9test_funcRiPKcdSsfU_Unwind_Resume0000000000000022t_Z41__static_initialization_and_destruction_0ii0000000000000000T_Z9test_funcRiPKcdSsfU_ZNSaIcEC1EvU_ZNSaIcED1EvU_ZNSsC1EPKcRKSaIcEU_ZNSsC1ERKSsU_ZNSsD1EvU_ZNSt8ios_base4InitC1EvU_ZNSt8ios_base4InitD1Ev0000000000000000b_ZSt8__ioinitU__cxa_atexitU__dso_handleU__gxx_personality_v00000000000000076t__tcf_0000000000000008eTmain
加粗的那行就是函数test_func经过name mangling之后的结果,其中:
lRi,表示对整型变量的引用lPKc:表示const char *指针lSs:目前还没有找到原因。先留着~lf:表示浮点型name demanglingC++的name mangling技术一般使得函数变得面目全非,而很多情况下我们在查看这些符号的时候并不需要看到这些函数name mangling之后的效果,而是想看看是否定义了某个函数,或者是否引用了某个函数,这对于我们调试程序是非常有帮助的。
所以需要一种方法从name mangling之后的符号变换为name mangling之前的符号,这个过程称之为name demangling.事实上有很多工具提供这些功能,最常用的就是c++file命令,c++filt命令接受一个name mangling之后的符号作为输入并输出demangling之后的符号。例如:
[lichao@sg01name_mangling]$c++filt_Z9test_funcRiPKcdSsftest_func(int&,charconst*,double,std::basic_string<char,std::char_traits<char>,std::allocator<char>>,float)一般更常用的方法为:
[lichao@sg01name_mangling]$nmfunc.o|c++filt0000000000000060tglobalconstructorskeyedto_Z9test_funcRiPKcdSsfU_Unwind_Resume0000000000000022t__static_initialization_and_destruction_0(int,int)0000000000000000Ttest_func(int&,charconst*,double,std::basic_string<char,std::char_traits<char>,std::allocator<char>>,float)Ustd::allocator<char>::allocator()Ustd::allocator<char>::~allocator()Ustd::basic_string<char,std::char_traits<char>,std::allocator<char>>::basic_string(charconst*,std::allocator<char>const&)Ustd::basic_string<char,std::char_traits<char>,std::allocator<char>>::basic_string(std::basic_string<char,std::char_traits<char>,std::allocator<char>>const&)Ustd::basic_string<char,std::char_traits<char>,std::allocator<char>>::~basic_string()Ustd::ios_base::Init::Init()Ustd::ios_base::Init::~Init()0000000000000000bstd::__ioinitU__cxa_atexitU__dso_handleU__gxx_personality_v00000000000000076t__tcf_0000000000000008eTmain另外使用nm命令也可以demangle符号,使用选项-C即可,例如:
[lichao@sg01name_mangling]$nm-Cfunc.o0000000000000060tglobalconstructorskeyedto_Z9test_funcRiPKcdSsfU_Unwind_Resume0000000000000022t__static_initialization_and_destruction_0(int,int)0000000000000000Ttest_func(int&,charconst*,double,std::string,float)Ustd::allocator<char>::allocator()Ustd::allocator<char>::~allocator()Ustd::basic_string<char,std::char_traits<char>,std::allocator<char>>::basic_string(charconst*,std::allocator<char>const&)Ustd::basic_string<char,std::char_traits<char>,std::allocator<char>>::basic_string(std::stringconst&)Ustd::basic_string<char,std::char_traits<char>,std::allocator<char>>::~basic_string()Ustd::ios_base::Init::Init()Ustd::ios_base::Init::~Init()0000000000000000bstd::__ioinitU__cxa_atexitU__dso_handleU__gxx_personality_v00000000000000076t__tcf_0000000000000008eTmain
又到了Last but not least important的时候了,还有一个特别重要的接口函数就是__cxa_demangle(),此函数的原型为:
namespaceabi{extern"C"char*__cxa_demangle(constchar*mangled_name,char*buf,size_t*n,int*status);}用于将mangled_name所指向的mangled进行demangle并将结果存放在buf中,n为buf的大小。status存放函数执行的结果,返回值为0表示执行成功。下面是使用这个接口函数进行demangle的例子:
/**Author:ChaosLee*Description:Employ__cxa_demangletodemangleamanglingfunctionname.*Date:2012/05/06**/#include<iostream>#include<cxxabi.h>usingnamespacestd;usingnamespaceabi;intmain(intargc,char*argv[]){constchar*mangled_string="_Z9test_funcRiPKcdSsf";charbuffer[100];intstatus;size_tn=100;__cxa_demangle(mangled_string,buffer,&n,&status);cout<<buffer<<endl;cout<<status<<endl;return0;}测试结果:
[lichao@sg01name_mangling]$g++cxa_demangle.cpp-ocxa_demangle[lichao@sg01name_mangling]$./cxa_demangletest_func(int&,charconst*,double,std::string,float)0name mangling与***l使用demangling可以破解动态链接库中的没有公开的API
l编写名称为name mangling接口函数,打开重复符号的编译开关,可以替换原来函数中链接函数的指向,从而改变程序的运行结果。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。