新闻 | 天津 | 民生 | 广电 | 津抖云 | 微视 | 读图 | 文娱 | 体育 | 图事 | 理论 | 志愿 | 专题 | 工作室 | 不良信息举报
教育 | 健康 | 财经 | 地产 | 天津通 | 旅游 | 时尚 | 购物 | 汽车 | IT | 亲子 | 会计 | 访谈 | 场景秀 | 发布系统

"津云"客户端
  您当前的位置 :北方网 > IT浪潮 > 北方学院 > 软件文库 > 图文处理 正文
关键词:

将PDF文件转换为TXT文件


http://www.enorth.com.cn  2003-08-06 17:50

  PDF是电子图书常用的文件格式,但是由于PDF文件不便阅读(需要安装Acrobat才能看),而且少则几百K,多则十来兆,不便网上传输,我们常常希望能把它转化成文本文件格式,却又往往无从下手。其实,这并不是一件难事。

  首先,我要向大家介绍一个能将PDF文件转成TXT文件的软件——Aerial2.0。

  我们知道,阅读PDF文件的工具,当属Adobe的Acrobat reader软件了,而Aerial则是Acrobat的一个插件。在安装了Aerial之后,Acrobat reader的菜单中的“plug-ins”就会多出一项“Aerial”。

  Aerial 2.0为我们浏览PDF文件提供了强大的功能:

  1.index manager:用于查找和管理文章的索引(必须要有Acrobat Exchange);

  2.navigator:为PDF文件建立树结构,方便我们浏览;

  3.paper clip page:剪贴页管理(必须要有Acrobat Exchange);

  4.copy table to clipboard:将表格复制到剪贴板;

  5.save as RTF :这才是我们最需要的功能,转化之后不仅保留了文字,连字体和颜色图案都能保留下来!

  但是,Aerial并不是万能的,它对中文支持不太好,排版有时会比较混乱,而且遇上扫描的纯图形的PDF文件时就无能为力了。要想把此类PDF文件转化成文本文件,就相对麻烦一些了,具体步骤如下:

  1.先用Acrobat打开PDF文件,选定区域,放大到300%~500%(视具体情况而定),复制到剪贴板。

  2.用Photoshop或Photoimpact等图形软件调出剪贴板的图形,存成单色的(注意:一定要单色)TIF、PCX或BMP文件,图形文件格式视你所用的OCR软件而定。笔者推荐使用BMP文件存盘。

  3.用OCR软件识别图形文件(笔者用的是Wtocr7.0),经过简单的排版校正后,一般能有95%以上的识别率。再经过你的手工修改后,就可以了。

编辑 蒋芃
[进入IT论坛]
请您文明上网、理性发言并遵守相关规定,在注册后发表评论。网友评论 2 条,查看全部
[95260] 江苏省 网友:及时雨 于2005-03-16 02:23 发表评论:

  在Adobe Acrobat Professional 中打开不可直接文本选择的PDF文件,另存为TIF格式,Acrobat会自动按页存之!然后用尚书七号OCR等识别软件识别。(如果存为JPEG格式文件大很多,但识别效果一样,存为JPEG2000/JPF格式则尚书七号OCR又不支持) 这是本人辛苦摸索出来的方法,对于处理大批PDF文件尤其便捷,不知识不是最简单的方法了,如果哪位高人发现了更简单的方法,或有文档图形格式转换方面的问题,欢迎找我:ezhongjishiyu@etang.com

[95259] 江苏省 网友:及时雨 于2005-03-16 02:18 发表评论:

  还用更简单便捷的方法

 北方网精彩内容推荐
无标题文档
天津民生资讯
天气交通 天津福彩 每月影讯 二手市场
空气质量 天津股票 广播节目 二手房源
失物招领 股市大擂台 天视节目 每日房价
热点专题
北京奥运圣火传递和谐之旅 迎奥运 讲文明 树新风
解放思想 干事创业 科学发展 同在一方热土 共建美好家园
2008天津夏季达沃斯论坛 《今日股市观察》视频
北方网网络相声频道在线收听 2008高考招生简章 复习冲刺
天津自然博物馆馆藏精品展示 2008年天津中考问题解答
带你了解08春夏服饰流行趋势 完美塑身 舞动肚皮舞(视频)
C-NCAP碰撞试验—雪佛兰景程 特殊时期善待自己 孕期检查
热点新闻排行 财经 体育 娱乐 汽车 IT 时尚 健康 教育

Copyright (C) 2000-2021 Enorth.com.cn, Tianjin ENORTH NETNEWS Co.,LTD.All rights reserved
本网站由天津北方网版权所有