当前位置: 首页 >> Tag标签为 'OCR检索扫描PDF'

扫描图片制作的PDF文档转word格式–CAJViewer

目前PDF等格式文件以其优异的阅读效果已成为主流的电子文档格式,固然有许多其他文档格式无法相比的优点,但从本质上讲,作为一种“图像”格式,它的“只读”特性却导致了文件只能“看”,却无法进行文本的编辑和拷贝,给用户操作带来极大不便。

“CAJViewer”是一款国产的免费电子文档阅读软件,体积小巧,打开速度极快,功能丰富和实用,是阅读、管理和复制PDF等电子文档的极佳工具。使用界面与“Adobe Reader”非常相似,可以快速上手。它除了能阅读目前国内常见的PDF、CAJ、KDH、NH、CAA、TEB六种电子文档外,另一大功能就是它具有OCR识别功能,可以轻松识别和复制PDF文档内容。在这里我们重点介绍它的OCR文字识别功能。

如果PDF文档是用扫描图片制作的,那我们用一般的PDF转word软件,就没办法输出为word格式的。不是空白就是图像,没有办法编辑。这时我们就要借助它的“OCR文字识别”这一功能了。操作起来也非常简单,只须点击工具栏中的“文字识别”按钮,然后用鼠标选取文字识别范围,稍候就会弹出一个“文字识别结果”窗口来显示识别出来的文字内容,点击“复制到剪贴板”按钮可以将该内容保存到剪贴板中使用,若点击“发送到WORD”按钮则可以自动粘贴到WORD文档进行使用。它采用清华文通的OCR识别技术,识别精度非常高。 Read the rest of this entry »

Google已可通过OCR检索扫描PDF文档

过去,电子扫描文档很少被纳入搜索结果中,因为受技术限制,我们对其中的具体内容不是很有把握,顶多只能针对文档标题进行检索。

Google产品经理Evin Levey自豪地宣布,这一切在今天都不同了,因为Google已经可以对任何Adobe PDF格式的扫描文档进行OCR检索,将其转换成文字并纳入索引,在用户搜索的时候就能显示在结果里了,很多重要的文件也可以轻松找到了。

Google表示,这是搜索技术上一个微小而重大的进步,也是Google致力于让全球信息都能轻松检索、使用的宏伟目标的一部分。

遗憾的是,Google没有透露这种技术现在都支持哪些语言,但估计是以英语为主,中文可能性不大,毕竟难度太大了。 Read the rest of this entry »