Base64编码原理分析与PHP实现
Base64是一种基于64个可打印字符来表示二进制数据的表示方法。由于2的6次方等于64,所以每6个为一个单元,对应某个可打印字符。
三个bites有24个比特,对应于4个Base64单元,即3个字节需要用4个可打印字符来表示。它可用来作为电子邮件的传输编码。
在Base64中的可打印字符包括字母A-Z、a-z、数字0-9,这样共有62个字符,此外两个可打印符号在不同的系统中而不同。
如在mime(多用途邮件扩展)中,Base64的使用的64个可打印字符
A-Za-z:大小写字母各26个
0-9:加上10个数字
+:加号
/:斜杠
一共64个字符,等号“=”用来作为后缀用途
对应的转换关系为
0-63:A-Za-z0-9+/
转换的时候,将三个byte的数据,先后放入一个24bit的缓冲区中,先来的byte占高位。数据不足3byte的话,于缓冲器中剩下的bit用0补足。然后,每次取出6(因为26=64)个bit,按照其值选择ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/
中的字符作为编码后的输出。不断进行,直到全部输入数据转换完成。
当原数据长度不是3的整数倍时, 如果最后剩下一个输入数据,在编码结果后加2个“=”;如果最后剩下两个输入数据,编码结果后加1个“=”;如果没有剩下任何数据,就什么都不要加,这样才可以保证数据还原的正确性。
实例分析:
编码:"Lailaiji"
通过查ASCII表找到对应关系
L:0x4c | a:0x61 |i:0x69 | l:0x6C | j:0x6A
因此转换成二进制为:0100 1100 , 0110 0001 , 0110 1001 , 0110 1100 , 0110 0001 , 0110 1001 , 0110 1010 , 0110 1001
第一步:先取三个字节的数据即:0100 1100 , 0110 0001 , 0110 1001,然后从这个三字节中取出6位即010011,在最高位补充两个位00使其成为1个byte,即0001 0011,剩余的18位也如此循环,最终这三个字节将扩展成为4个字节即:0001 0011, 0000 0110, 0000 0101, 0010 1001
第二步,从剩余的字节序列中再重复第一步,走到小于3个字节
第三步,这时剩余字节为:0110 1010,0110 1001不足3个字节,需要在从低位以0进行补充,即成0110 1010,0110 1001,0000 0000重复第一步,得到:0001 1010,0010 0110, 0010 0100, 0000 0000,
经过以后的运算后,我们将得到一组位序列:
0001 0011, 0000 0110, 0000 0101, 0010 1001
0001 1011,00000110, 0000 0101, 0010 1001
0001 1010,0010 0110, 0010 0100, 0000 0000
转换成十进制为:19,6,5,41,27,6,5,41,26,38,36,0
对应的字符为:T,G,F,p,b,G,F,p,a,m,k,A
特别注重的是,最后一个字节0000 0000即0x00,通过查表为A,由于最后这8位是补充的,所以它应当被转换成=号,而不是A
因此:最终结果为:TGFpbGFpamk=
PHP实现:
<?php$input='赖来基';$obj=newMyBase64();$output=$obj->encode($input);echo"Encode:",$output.PHP_EOL;$output=$obj->decode($output);echo"Decode:",$output.PHP_EOL;classMyBase64{private$_table=array();private$_revtable=array();publicfunction__construct(){$this->_initTable();}publicfunctiondecode($string){$orign_len=strlen($string);$j=0;$ret=null;for($i=0;$i<$orign_len;$i+=4){$chr1=$this->getRevChr($string[$i]);$chr2=$this->getRevChr($string[$i+1]);$chr3=$this->getRevChr($string[$i+2]);$chr4=$this->getRevChr($string[$i+3]);$_chr1=$chr1<<2|($chr2&0x3F)>>4;$_chr2=($chr2&0x0F)<<4|($chr3&0xFC)>>2;$_chr3=($chr3&0x03)<<6|$chr4;$ret.=chr($_chr1);$ret.=chr($_chr2);$ret.=chr($_chr3);}$ret=rtrim($ret);return$ret;}privatefunctiongetRevChr($chr){if(isset($this->_revtable[$chr])){return$this->_revtable[$chr];}else{return0;}}publicfunction_decode($string){$orign_len=strlen($string);$de=null;$kv=array_flip($this->_table);$b=null;for($i=0;$i<$orign_len;$i++){$chr=$string[$i];if($chr!='='){$c=$kv[$chr];}else{$c=chr(0);}printf("%x",$c);$b[]=pack('C',$c);echoPHP_EOL;}for($i=0;$i<count($b);$i+=3){$ch2=($b[$i]<<2)|($b[$i+1]>>4);$ch3=($b[$i+1]<<4)|($b[$i+2]>>2);$ch4=($b[$i+2]<<6)|($b[$i+3]);printf('%08b,%08b,%08b',$ch2,$ch3,$ch4);echoPHP_EOL;printf('%08b,%08b',($b[$i]<<2),($b[$i+1]>>4));echoPHP_EOL;}}publicfunctionencode($string){$orign_len=strlen($string);$len=intval(ceil($orign_len/3)*3);$bin=pack('a'.$len,$string);$gen=null;for($i=0;$i<$len;$i+=3){$ch2=ord($bin[$i])>>2;$ch3=((ord($bin[$i])&0x03)<<4)|(ord($bin[$i+1])>>4);$ch4=((ord($bin[$i+1])&0x0F)<<2)|((ord($bin[$i+2])&0xC0)>>6);$ch5=ord($bin[$i+2])&0x3F;$gen.=$this->_table[$ch2];$gen.=$this->_table[$ch3];$gen.=$this->_table[$ch4];$gen.=$this->_table[$ch5];}if($orign_len-$len){$gen=substr($gen,0,-abs($orign_len-$len));for($i=0;$i<$len-$orign_len;$i++){$gen.='=';}}return$gen;}privatefunction_initTable(){$tbl=array();for($i=ord('A');$i<=ord('Z');$i++){$tbl[]=chr($i);}for($i=ord('a');$i<=ord('z');$i++){$tbl[]=chr($i);}for($i=ord('0');$i<=ord('9');$i++){$tbl[]=chr($i);}$tbl[]='+';$tbl[]='/';$reverse=array_flip($tbl);$this->_table=$tbl;$this->_revtable=$reverse;}}
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。