Mini OCR—识别扫描图像中的文字
时间: 2009-04-20 - 分类: ocr文字识别 - 无评论经常用扫描仪的朋友可能对OCR并不陌生,OCR即Optical CharacterRecognition,中文含意就是光学字符识别的意思,就是将图像作一个转换,使图像内的图形继续保存,将文字识别出来,这样使人们从繁重的键盘录入的劳动中解脱出来。目前几乎所有扫描仪都附带有OCR识别软件,但遗憾的是,即使是同一个OCR软件,识别的正确率差距也较大。目前比较常见的OCR软件有清华紫光和尚书六号。
Mini OCR是一款免费的绿色软件,你只要将下载的压缩包解压缩到任何一个目录下,然后运行Min iOcr.exe就可以了。只要按照打开图像文件、段落切分、文字识别、保存结果四个简单的步骤,就可以很容易将图像文件中的文字给抠出来。
一、打开图像文件
单击主窗口左侧的“打开图像文件”按钮,在打出的窗口选择要进行OCR的图像文件,Mini OCR支持的图像格式有BMP、CIF和JPG。如果你的图像文件是其他格式的,可以通过ACDSEE等其他软件进行格式转换。
二、段落切分
在对图像中的文字进行识别之前,需要先对页面进行段落切分,即把页面分割成一个一个的文字段落,擦除图像区域,保留文字块,按照切分后段落出现的从上到下的顺序进行文字识别,以期处理图文混排的页面时,能达到更好的识别效果,并排除图形的干扰,加快文字的识别速度。如果直接跳过这一步直接进入文字识别,则软件也会自动插入段落切分。点击“段落切分”按钮即可对页面进行段落切分。 Read the rest of this entry »