假设有如下一张图,如何把其中的文本分块切割出来,比如“华普超市朝阳门店”、“2015-07-26”就是两个文本块。


做图像切割有很多种方法,本文描述一种最直观的投影检测法。先来看看什么是投影,简单来说,投影就是在一定方向上有效像素的数量。来看个直观的图像:


这是一张水平投影图与原图的对比,从投影图上能看到多个波峰,文字多的地方,投影就长,行间的空白处,投影为0。 上个示例代码:

publicvoidHorizontalProjection(){//以灰度图方式读入源文件stringfilename="source.jpg";varsrc=IplImage.FromFile(filename,LoadMode.GrayScale);//二值化,采用阈值分割法Cv.Threshold(src,src,0,255,ThresholdType.BinaryInv|ThresholdType.Otsu);//存储投影值的数组varh=newint[src.Height];//对每一行计算投影值for(inty=0;y<src.Height;++y){//遍历这一行的每一个像素,如果是有效的,累加投影值for(intx=0;x<src.Width;++x){vars=Cv.Get2D(src,y,x);if(s.Val0==255)h[y]++;}}//准备一个图像用于画投影图varpaintY=Cv.CreateImage(src.Size,BitDepth.U8,1);Cv.Zero(paintY);//画图vart=newCvScalar(255);for(inty=0;y<src.Height;++y){for(intx=0;x<h[y];++x)Cv.Set2D(paintY,y,x,t);}//显示using(varwindow=newCvWindow("Source")){window.Image=src;using(varwin2=newCvWindow("Projection")){win2.Image=paintY;Cv.WaitKey();}}}


显然找出波峰对应的y值,就能把行切割开了。 得到一行以后,可以采用类似的思想进行垂直投影,挑了一行测试一下,效果如下:


可以看到效果不是特别好,左右结构的汉字有可能被切开,一个完整的数值也有可能分成多个数字,这种情况需要做一下处理,比如识别的时候要判断如果间距较小就认为仍是同一文本块,或者对图像进行一下横向膨胀处理:

varkernal=Cv.CreateStructuringElementEx(3,1,1,0,ElementShape.Rect);Cv.Dilate(src,src,kernal,4);


再计算投影,得到的效果就好多了:



最后上完整代码以及切割效果展示:

usingSystem;usingSystem.Collections.Generic;usingSystem.IO;usingSystem.Text;usingOpenCvSharp;usingOpenCvSharp.Extensions;usingOpenCvSharp.Utilities;namespaceOpenCvTest{classProgram{staticvoidMain(string[]args){//打开源文件stringfilename="source.jpg";varsrc=IplImage.FromFile(filename);//转成灰度图vargray=Cv.CreateImage(src.Size,BitDepth.U8,1);Cv.CvtColor(src,gray,ColorConversion.BgrToGray);//二值化,阈值分割算法Cv.Threshold(gray,gray,0,255,ThresholdType.BinaryInv|ThresholdType.Otsu);//分行varrows=GetRowRects(gray);//针对每一行再分块varitems=newList<CvRect>();foreach(varrowinrows){varcols=GetBlockRects(gray.Clone(row),row.Y);items.AddRange(cols);}//把识别出的每一块画到原图上去varcolor=newCvScalar(255,0,0);foreach(varrectinitems){Cv.DrawRect(src,rect,color,1);}//显示using(varwindow=newCvWindow("Image")){window.Image=src;Cv.WaitKey();}}///<summary>///识别行///</summary>///<paramname="source"></param>///<returns></returns>privatestaticList<CvRect>GetRowRects(IplImagesource){varrows=newList<CvRect>();//用于存储投影值varprojection=newint[source.Height];//遍历每一行计算投影值for(inty=0;y<source.Height;++y){for(intx=0;x<source.Width;++x){vars=Cv.Get2D(source,y,x);if(s.Val0==255)projection[y]++;}}boolinLine=false;intstart=0;//开始根据投影值识别分割点for(inti=0;i<projection.Length;++i){if(!inLine&&projection[i]>10){//由空白进入字符区域了,记录标记inLine=true;start=i;}elseif((i-start>5)&&projection[i]<10&&inLine){//由字符区域进入空白区域了inLine=false;//忽略高度太小的行,比如分隔线if(i-start>10){//记录下位置varrect=newCvRect(0,start-1,source.Width,i-start+2);rows.Add(rect);}}}returnrows;}///<summary>///识别块///</summary>///<paramname="source"></param>///<paramname="rowY"></param>///<returns></returns>privatestaticList<CvRect>GetBlockRects(IplImagesource,introwY){varblocks=newList<CvRect>();//用于存储投影值varprojection=newint[source.Width];//先进行横向膨胀varkernal=Cv.CreateStructuringElementEx(3,1,1,0,ElementShape.Rect);Cv.Dilate(source,source,kernal,4);//遍历每一列计算投影值for(intx=0;x<source.Width;++x){for(inty=0;y<source.Height;++y){vars=Cv.Get2D(source,y,x);if(s.Val0==255)projection[x]++;}}boolinBlock=false;intstart=0;//开始根据投影值识别分割点for(inti=0;i<projection.Length;++i){if(!inBlock&&projection[i]>=2){//由空白区域进入字符区域了inBlock=true;start=i;}elseif((i-start>10)&&inBlock&&projection[i]<2){//由字符区域进入空白区域了inBlock=false;//记录位置,注意由于传入的是source只是一行,因此最终的位置信息要+rowYif(blocks.Count>0){//跟上一个比一下,如果距离过近,认为是同一个文本块,合并varlast=blocks[blocks.Count-1];if(start-last.X-last.Width<=5){blocks.RemoveAt(blocks.Count-1);varrect=newCvRect(last.X,rowY,i-last.X,source.Height);blocks.Add(rect);}else{varrect=newCvRect(start,rowY,i-start,source.Height);blocks.Add(rect);}}else{varrect=newCvRect(start,rowY,i-start,source.Height);blocks.Add(rect);}}}returnblocks;}}}


得到的图像如下,效果还行,将来继续优化吧:



未经许可严禁转载。