扫描版PDF中的水印无外乎两种:文章源自惟康前行-https://www.wkqx.com/625.html
1、水印没有与扫描图像融合,水印是水印,扫描图像是扫描图像文章源自惟康前行-https://www.wkqx.com/625.html
导出图像后能看到干净的、无水印的扫描图像,把图像重新打包成PDF即可去除水印。文章源自惟康前行-https://www.wkqx.com/625.html
2、水印已经与扫描图像融合在一起文章源自惟康前行-https://www.wkqx.com/625.html
对于这种情况,导出后得到的是带水印的图像文件,需要用CEP等图像处理软件去除水印,然后再重新打包成PDF。文章源自惟康前行-https://www.wkqx.com/625.html
所以说对于扫描版PDF去水印,首先就应该先把PDF中的图像全部导出,查看一番后再决定后续的处理。反过来说,如果导出的图像中没有PDF文件的有效内容,或者干脆就没有图像可导出,说明这个PDF根本就不是扫描版PDF,还是想别的辙吧。文章源自惟康前行-https://www.wkqx.com/625.html
但从PDF中无损导出图像(注意不是PDF转图像)还是有一定技术含量的,主要是要解决好以下问题:文章源自惟康前行-https://www.wkqx.com/625.html
1、能够根据PDF中的图像数据流特点,自动选择合适的图像文件格式,尽量做到无损导出文章源自惟康前行-https://www.wkqx.com/625.html
上面这段话可能说得太文绉绉了,说得小白一点就是:在导出图像的时候,如果软件不问你要导出成什么格式,自己就哗哗哗的导出了,而且导出后的图像文件总长度和原PDF文件长度差不多,那基本上就有谱了。如果软件在导出前先要问你要导出成什么格式,这样的软件你趁早别用,比如说在其他方面确实有一手的Acrobat在这方面就很弱智,所以每次我看到有人鼓吹用Acrobat导出图像的时候,都像看到有人鼓吹任何类型的图像都存为JPG格式一样,感觉好可怜。文章源自惟康前行-https://www.wkqx.com/625.html
2、处理好特殊的色彩空间文章源自惟康前行-https://www.wkqx.com/625.html
PDF博大精深,里面的图像色彩空间令人眼花缭乱,还带各种修饰,比如ICC Based、反白、遮罩等。如上面那个帖子原始PDF中的封面图像就是ICC Based。能否在导出的图像文件中保留这些特性,就看软件开发者自己的本事了。
3、处理好切片图像
如果图像转PDF时用的是灌水的转换软件,或者干脆就是人的脑子进水了,制作出来的PDF在导出图像时,得到的可能是一条、一条(strip)的图像,或者是一片、一片(tile)的。这个问题我以前在reafree里讨论过,因为当时(我不知道现在是否还这样)CXPDF是用PDFLib转换出来的,一页被切分成了若干条,结果PDF文件显示的时候会因为条与条之间的缩放、遮挡造成文字缺少笔画。因此在导出这种PDF的图像时,图像自动拼接功能是必不可少的。
以上问题中能解决某一个问题的软件我见过几个,但全部问题都有涉猎的到目前为止我就只知道PdfToy,没有其他。如果有谁觉得我说得不对,欢迎举证反驳,大家共同学习。
因此总结一下,去除扫描版PDF中水印的通用步骤是:
1、用PdfToy的“导出图像”功能导出PDF中的水印,这个支持批量,可以自动搜索多级子文件夹中的PDF文件。用其他软件导出图片也不是不可以,如PDF补丁丁等,在大多数情况下是够用了,有些细节也不能太较真。
2、用CV、ACDSEE或任何你喜欢的图像浏览器看一下导出的文件,如果发现需要进行反白、拼接等处理,在PdfToy的“导出图像”中修改相应参数后重新导出,用其他软件的看运气。
3、如果导出的图像不含PDF的有效内容,说明这个PDF文件根本就不是扫描版PDF,直接改用其他方法去水印,如PdfToy的流过滤。
4、如果导出的图像有效,且没有嵌入水印,则删除无关文件,只留下内容图。
5、如果导出的图像有效,但嵌入了水印,则用CEP等图像处理软件去除水印。
6、用PdgRenamer把图像重命名为PDG,包括封面、书名、版权、前言、目录、正文等,一方面是可以在转PDF时自动生成分段页码并统一页宽,另一方面方便检查是否缺页——PDG文件名与页码是对应的。
7、用Pdg2Pic转PDF。