PDG科普篇

2024年7月21日 13:48:00烟火3661阅读模式

PDG文件是超星数字图书格式，需要使用超星阅读器打开，如果您没有安装超星阅读器，可以从官方网站下载并安装，双击PDG文件即可打开。

PDG文件
┏━━━━━━━━┻━━━━━━━━┳━━━━━━━━┓
图像版PDG　　　　　　　　　　　　　文字版PDG CX PDF
（文件名无下划线）　　　　　　　　　（文件名带下划线）（一本书一个文件）
┏━━━━━━━━┻━━━━━━━┓　　　　　　　　　┃　　　　　　　　┃
清晰版　　　　　　快速版　　　　　大图版　　　　有人说好，有人不要　　不同历史时期
┃　　　　　　　　┃　　　　　　　┃　　　　可能采用各种加密格式，　有不同的清晰度
追求的目标　　　　　淘汰的目标　　　比快速版强　　解密后是图文混排的PDF
常为02H、04H　　　常为05H、AxH、6xH　　非加密
解密后是CCITT、JPG　　解密后是DjVu　　JPG、PNG改名，原版ssreader不认PNG文章源自惟康前行-https://www.wkqx.com/1405.html

当然对新手来说这个图理解起来有点困难，下面就加以详细解释。建议在看下文的时候，注意对照此图，以加深理解。文章源自惟康前行-https://www.wkqx.com/1405.html

在早期PDG还处于“老子的队伍才开张”的时代，PDG文件都是用扫描后的图像文件产生的，骨子里还是一种图像格式，用官方浏览器ssreader打开后不能搜索、选择、复制文字，要想获得文字信息只能选择OCR。这样的PDG通常称为图像版PDG。文章源自惟康前行-https://www.wkqx.com/1405.html

图像版PDG由于是从原书扫描成的，因此完全忠实于原书，包括版式、字体、插图等。但是图像文件毕竟太大，会给服务器、网络出口造成压力，而且不能直接搜索、复制文字也不便于使用，因此后来采用OCR引擎对扫描图像进行文字识别，再经ZIP压缩、按PDG文件格式加密封装等步骤后，出炉了一种骨子里是纯文字或图文混排的PDF文件的PDG。这种PDG文件在ssreader里阅读时，能够直接搜索、选择、复制其中的文字，放大显示时文字也不会出现锯齿，因此被称为“文字版PDG”，以区别以前的图像版PDG。而在文件名上二者也有区别：图像版PDG文件名是6位，没有下划线；文字版PDG文件名长度不固定，中间有下划线。文章源自惟康前行-https://www.wkqx.com/1405.html

到目前为止，没有任何一家OCR引擎敢保证自己的识别率是100%，事实上，我很怀疑未来有任何一家正常的软件公司敢下这样的保证。因此传统上认为文字版PDG不如图像版PDG靠得住，可能会因为OCR的差错而出现错别字，影响阅读、引用。这就是为什么在园地很多人求书时指明不要文字版PDG的原因。不过从我个人的实际经验看，早期的纯文字版PDG确实存在一些问题，后来推出的图文混排版则有所改进——OCR引擎把握比较大的文字就识别成文本，把握不大的就保持图片，所以差错不能说没有，但至少比纯文字的要好一点，只不过文本PDG在制作的时候忘记把图片设置成透明了，所以在浏览器里设置了背景后，阅读这种图文混排的PDG会感觉眼花缭乱——解决的办法就是自己把图像改成透明，或者用UnicornViewer阅读，并设置背景强制透明——当然免费版UnicornViewer是不支持文本PDG和PDF的。文章源自惟康前行-https://www.wkqx.com/1405.html

另外我也曾碰到过个别文字版PDG是直接用从出版社获得的原始排版文件生成的，没有OCR环节，不仅没有什么错别字（原书有错的除外），而且完全体现原书版式，还是很值得收藏的。当然，这样的高质量文字版PDG只能靠运气，赶上了就有，赶不上也没办法。文章源自惟康前行-https://www.wkqx.com/1405.html

总之，通常可以认为文字版PDG具有下列特征：文章源自惟康前行-https://www.wkqx.com/1405.html

1、原始文字版PDG文件名必定带下划线，图像版PDG的文件名则没有下划线。
2、通常前言页会跑到最后去。我猜这是因为按照PDG命名规则，前言页以fow开头，所以在OCR的时候，自然排在以数字开头的正文页之后。由此可见PDG官方制作者的水平和态度。
3、把文本PDG解密、解压成PDF后，在Acrobat下打开，正文经常是黑体而不是宋体。修正这个问题的方法我在readfree说过，用PdfToy全文替换一下PDF中的字体参数就好。
4、阅读的时候要么感觉满眼错别字，要么感觉有些诡异，总觉得有些字看起来比较毛糙。如果设置了浏览器的背景，就会发现那些感觉毛糙的部分是白色背景的小图片。
5、原始文字版PDG文件的总长度很大，但转换、合并成一个PDF文件后，如果合并时用的是Acrobat等具有消除冗余对象能力的合并软件，合并后的PDF文件长度会比原始文字版PDG文件的总长度小很多。原因很简单：为了保证每个独立的文字版PDG文件都能被打开，CX被迫在制作时在每个文字版PDG所包含的PDF文件中都嵌入了字体，但其实对一本书来说，正文部分每一页使用的字体都是相同的，所以原始文字版PDG中包含大量的重复信息。用Acrobat合并时，会自动删除相同的字体，从而减少文件总长度。换句话说，如果文字版PDG合并成PDF后文件长度基本保持不变，你就应该怀疑你是不是用错了合并软件了。文章源自惟康前行-https://www.wkqx.com/1405.html

文字版PDG虽然文件短小，但OCR毕竟是一个费时、费力的活儿，把所有书籍全变成文字版PDG显然不太现实。因此为了减轻服务器和网络的压力，在图像版PDG中又出现了清晰版、快速版的区别。换句话说，文字版PDG是不分什么清晰版、快速版的。文章源自惟康前行-https://www.wkqx.com/1405.html 文章源自惟康前行-https://www.wkqx.com/1405.html

热门搜索

发表评论