当前位置: 首页 >> Tag标签为 'OCR识别系统'

Mini OCR—识别扫描图像中的文字

经常用扫描仪的朋友可能对OCR并不陌生,OCR即Optical CharacterRecognition,中文含意就是光学字符识别的意思,就是将图像作一个转换,使图像内的图形继续保存,将文字识别出来,这样使人们从繁重的键盘录入的劳动中解脱出来。目前几乎所有扫描仪都附带有OCR识别软件,但遗憾的是,即使是同一个OCR软件,识别的正确率差距也较大。目前比较常见的OCR软件有清华紫光和尚书六号

Mini OCR是一款免费的绿色软件,你只要将下载的压缩包解压缩到任何一个目录下,然后运行Min iOcr.exe就可以了。只要按照打开图像文件、段落切分、文字识别、保存结果四个简单的步骤,就可以很容易将图像文件中的文字给抠出来。

一、打开图像文件
单击主窗口左侧的“打开图像文件”按钮,在打出的窗口选择要进行OCR的图像文件,Mini OCR支持的图像格式有BMP、CIF和JPG。如果你的图像文件是其他格式的,可以通过ACDSEE等其他软件进行格式转换。
二、段落切分
在对图像中的文字进行识别之前,需要先对页面进行段落切分,即把页面分割成一个一个的文字段落,擦除图像区域,保留文字块,按照切分后段落出现的从上到下的顺序进行文字识别,以期处理图文混排的页面时,能达到更好的识别效果,并排除图形的干扰,加快文字的识别速度。如果直接跳过这一步直接进入文字识别,则软件也会自动插入段落切分。点击“段落切分”按钮即可对页面进行段落切分。 Read the rest of this entry »

OCR识别系统实现PDF文档编辑、拷贝和检索

PDF固然有许多其他文档格式无法相比的优点,但从本质上讲,作为一种“图像”格式,它的“只读”特性却导致了文件只能“看”,却无法进行文本的编辑和拷贝,更重要的是PDF文档之间无法相互检索。这就使得文件无法很好统一整理和归类,是让政府信息主管头痛的一大难题。

其实这样的问题可能在我们每个人的工作中都出现过。而当办公自动化(OA)、办公“无纸化”已经成为了电子政务的重要目标之一时,为了解决这一难题。汉王科技推出的“PDF图像OCR识别系统”软件就让PDF格式文档不能进行编辑、拷贝和检索的难题迎刃而解。该系统是为政府办公信息化建设量身打造,无缝整合了PDF文档录入、图像处理、版面分析识别和文本转换的全过程,可以整合不同机构、部门的分类信息,打破传统行政机关时间、空间和部门分隔的制约,使各级政府的各项监管工作更加严密,服务更加便捷,为海量信息的交叉检索、深度内容的进一步发掘和开拓打开了更为广阔的天地。特别要强调的是,该软件可以处理目前PDF文档中的全部11种图片存储格式,而且也很好的解决了公式识别的问题。