时间: 2009-04-20 - 分类: ocr文字识别 - 无评论
经常用扫描仪的朋友可能对OCR并不陌生,OCR即Optical CharacterRecognition,中文含意就是光学字符识别的意思,就是将图像作一个转换,使图像内的图形继续保存,将文字识别出来,这样使人们从繁重的键盘录入的劳动中解脱出来。目前几乎所有扫描仪都附带有OCR识别软件,但遗憾的是,即使是同一个OCR软件,识别的正确率差距也较大。目前比较常见的OCR软件有清华紫光和尚书六号。
Mini OCR是一款免费的绿色软件,你只要将下载的压缩包解压缩到任何一个目录下,然后运行Min iOcr.exe就可以了。只要按照打开图像文件、段落切分、文字识别、保存结果四个简单的步骤,就可以很容易将图像文件中的文字给抠出来。
一、打开图像文件
单击主窗口左侧的“打开图像文件”按钮,在打出的窗口选择要进行OCR的图像文件,Mini OCR支持的图像格式有BMP、CIF和JPG。如果你的图像文件是其他格式的,可以通过ACDSEE等其他软件进行格式转换。
二、段落切分
在对图像中的文字进行识别之前,需要先对页面进行段落切分,即把页面分割成一个一个的文字段落,擦除图像区域,保留文字块,按照切分后段落出现的从上到下的顺序进行文字识别,以期处理图文混排的页面时,能达到更好的识别效果,并排除图形的干扰,加快文字的识别速度。如果直接跳过这一步直接进入文字识别,则软件也会自动插入段落切分。点击“段落切分”按钮即可对页面进行段落切分。 Read the rest of this entry »
Tags: OCR识别系统
时间: 2009-03-26 - 分类: ocr文字识别 - 无评论
一、什么是OCR
很早之前就听说有提取图片中文字的工具和方法,这种文字识别技术称为OCR(Optical Character Recognition)。OCR技术的出现,实现了将印刷文字扫描得到的图片转化为文本文字的功能,提供了一种全新的文字输入手段,大大提高了用户工作的效率。
二、OCR适合对象
1.印刷行业、文印店:经常会遇到客户只给你一本厚厚的宣传册(因为客户不知道电子稿保存的重要意义,甚至压根就不知道什么是电子稿),要你明天之前,必须把那本几十页宣传册上的文字,原原本本打出来。生意还是要做,没有办法,你只能再当一回为了打字而打字的工具了,除非你使用OCR;
2.办公室工作人员:老板某天拿了一张写满字的传单给你,要求你马上打成Word文档,对于打字慢或是懒得打的你,为了完成工作任务,OCR就很适合你了;
3.其他对象:工作中、网络中、现实生活中,OCR对很多人都是有用的,能帮你轻松提高效率。
三、准确选择OCR软件
正常购买扫描仪的时候,配套软件就会附有OCR功能,在网络上搜索,也会有一系列的OCR软件可以下载,如:
1.清华紫光OCR V7.5
简介:清华紫光 OCR支持Windows环境下的GB、BIG5、JIS和Shif。
2.ABBYY FineReader OCR Professional 7.0.0.963
简介:一款OCR软件。为用户提供了现代OCR赤铜的全部功能,给予它们对信息管理的完全控制。
3.扫描小精灵 V1.30 Build 2003.03.21
简介:针对OCR的图像增强、虚拟TWAIN、批量扫描。
4.Mini Ocr 汉字显示字体识别软件 1.0
简介:本软件是飞涛软件工作室开发的一款免费Ocr软件,主要用于识别图像文件之中出现的汉字。
5.Mini Ocr 汉字显示字体识别软件 V1.0
简介:本软件是飞涛软件工作室开发的一款免费Ocr软件。
6.奥普印刷体文字识别OCR系统 专业版
笔者从事互联网行业也有三四年了,很早前就知道有OCR(文字识别技术),也曾花了好几天的时间研究了不下十种的OCR软件(包含以上6种),结果不是软件安装失败,就是提取文字的识别率太低。过了好久,笔者下载了”尚书六号”,才发现它就是多年来一直寻找的OCR软件,并亲眼见证了OCR的成果,识别率达到90%以上。 “尚书六号”下载
四、图片文字提取(OCR)图解范例
1.从扫描仪导入图片或截图生成

[图1] 截图后,打开Photoshop,新建文件,分辨率设:300像素/英寸 Read the rest of this entry »
Tags: 扫描图片转word
时间: 2009-03-16 - 分类: ocr文字识别 - 无评论
目前PDF等格式文件以其优异的阅读效果已成为主流的电子文档格式,固然有许多其他文档格式无法相比的优点,但从本质上讲,作为一种“图像”格式,它的“只读”特性却导致了文件只能“看”,却无法进行文本的编辑和拷贝,给用户操作带来极大不便。
“CAJViewer”是一款国产的免费电子文档阅读软件,体积小巧,打开速度极快,功能丰富和实用,是阅读、管理和复制PDF等电子文档的极佳工具。使用界面与“Adobe Reader”非常相似,可以快速上手。它除了能阅读目前国内常见的PDF、CAJ、KDH、NH、CAA、TEB六种电子文档外,另一大功能就是它具有OCR识别功能,可以轻松识别和复制PDF文档内容。在这里我们重点介绍它的OCR文字识别功能。
如果PDF文档是用扫描图片制作的,那我们用一般的PDF转word软件,就没办法输出为word格式的。不是空白就是图像,没有办法编辑。这时我们就要借助它的“OCR文字识别”这一功能了。操作起来也非常简单,只须点击工具栏中的“文字识别”按钮,然后用鼠标选取文字识别范围,稍候就会弹出一个“文字识别结果”窗口来显示识别出来的文字内容,点击“复制到剪贴板”按钮可以将该内容保存到剪贴板中使用,若点击“发送到WORD”按钮则可以自动粘贴到WORD文档进行使用。它采用清华文通的OCR识别技术,识别精度非常高。 Read the rest of this entry »
Tags: OCR检索扫描PDF, PDF转Word
时间: 2009-03-15 - 分类: ocr文字识别 - 无评论
PDF固然有许多其他文档格式无法相比的优点,但从本质上讲,作为一种“图像”格式,它的“只读”特性却导致了文件只能“看”,却无法进行文本的编辑和拷贝,更重要的是PDF文档之间无法相互检索。这就使得文件无法很好统一整理和归类,是让政府信息主管头痛的一大难题。
其实这样的问题可能在我们每个人的工作中都出现过。而当办公自动化(OA)、办公“无纸化”已经成为了电子政务的重要目标之一时,为了解决这一难题。汉王科技推出的“PDF图像OCR识别系统”软件就让PDF格式文档不能进行编辑、拷贝和检索的难题迎刃而解。该系统是为政府办公信息化建设量身打造,无缝整合了PDF文档录入、图像处理、版面分析识别和文本转换的全过程,可以整合不同机构、部门的分类信息,打破传统行政机关时间、空间和部门分隔的制约,使各级政府的各项监管工作更加严密,服务更加便捷,为海量信息的交叉检索、深度内容的进一步发掘和开拓打开了更为广阔的天地。特别要强调的是,该软件可以处理目前PDF文档中的全部11种图片存储格式,而且也很好的解决了公式识别的问题。
Tags: OCR识别系统