PDG科普篇

PDG文件是超星数字图书格式,需要使用超星阅读器打开,如果您没有安装超星阅读器,可以从官方网站下载并安装,双击PDG文件即可打开。

PDG文件
┏━━━━━━━━┻━━━━━━━━┳━━━━━━━━┓
图像版PDG             文字版PDG      CX PDF
(文件名无下划线)         (文件名带下划线)(一本书一个文件)
┏━━━━━━━━┻━━━━━━━┓         ┃        ┃
清晰版      快速版     大图版    有人说好,有人不要  不同历史时期
┃        ┃       ┃    可能采用各种加密格式, 有不同的清晰度
追求的目标     淘汰的目标   比快速版强  解密后是图文混排的PDF
常为02H、04H   常为05H、AxH、6xH  非加密
解密后是CCITT、JPG  解密后是DjVu  JPG、PNG改名,原版ssreader不认PNG文章源自惟康前行-https://www.wkqx.com/1405.html

当然对新手来说这个图理解起来有点困难,下面就加以详细解释。建议在看下文的时候,注意对照此图,以加深理解。文章源自惟康前行-https://www.wkqx.com/1405.html

在早期PDG还处于“老子的队伍才开张”的时代,PDG文件都是用扫描后的图像文件产生的,骨子里还是一种图像格式,用官方浏览器ssreader打开后不能搜索、选择、复制文字,要想获得文字信息只能选择OCR。这样的PDG通常称为图像版PDG。文章源自惟康前行-https://www.wkqx.com/1405.html

图像版PDG由于是从原书扫描成的,因此完全忠实于原书,包括版式、字体、插图等。但是图像文件毕竟太大,会给服务器、网络出口造成压力,而且不能直接搜索、复制文字也不便于使用,因此后来采用OCR引擎对扫描图像进行文字识别,再经ZIP压缩、按PDG文件格式加密封装等步骤后,出炉了一种骨子里是 纯文字或图文混排的PDF文件的PDG。这种PDG文件在ssreader里阅读时,能够直接搜索、选择、复制其中的文字,放大显示时文字也不会出现锯齿,因此被称为“文字版PDG”,以区别以前的图像版PDG。而在文件名上二者也有区别:图像版PDG文件名是6位,没有下划线;文字版PDG文件名长度不固定,中间有下划线。文章源自惟康前行-https://www.wkqx.com/1405.html

到目前为止,没有任何一家OCR引擎敢保证自己的识别率是100%,事实上,我很怀疑未来有任何一家正常的软件公司敢下这样的保证。因此传统上认为文字版PDG不如图像版PDG靠得住,可能会因为OCR的差错而出现错别字,影响阅读、引用。这就是为什么在园地很多人求书时指明不要文字版PDG的原因。不过从我个人的实际经验看,早期 的纯文字版PDG确实存在一些问题, 后来推出的图文混排版则有所改进——OCR引擎把握比较大的文字就识别成文本,把握不大的就保持图片,所以差错不能说没有,但至少比纯文字的要好一点,只不过文本PDG在制作的时候忘记把图片设置成透明了,所以在浏览器里设置了背景后,阅读这种图文混排的PDG会感觉眼花缭乱——解决的办法就是自己把图像改成透明,或者用UnicornViewer阅读,并设置背景强制透明——当然免费版UnicornViewer是不支持文本PDG和PDF的。文章源自惟康前行-https://www.wkqx.com/1405.html

另外我也曾碰到过个别文字版PDG是直接用从出版社获得的原始排版文件生成的,没有OCR环节,不仅没有什么错别字(原书有错的除外),而且完全体现原书版式,还是很值得收藏的。当然,这样的高质量文字版PDG只能靠运气,赶上了就有,赶不上也没办法。文章源自惟康前行-https://www.wkqx.com/1405.html

总之,通常可以认为文字版PDG具有下列特征:文章源自惟康前行-https://www.wkqx.com/1405.html

1、原始文字版PDG文件名必定带下划线,图像版PDG的文件名则没有下划线。
2、通常前言页会跑到最后去。我猜这是因为按照PDG命名规则,前言页以fow开头,所以在OCR的时候,自然排在以数字开头的正文页之后。由此可见PDG官方制作者的水平和态度。
3、把文本PDG解密、解压成PDF后,在Acrobat下打开,正文经常是黑体而不是宋体。修正这个问题的方法我在readfree说过,用PdfToy全文替换一下PDF中的字体参数就好。
4、阅读的时候要么感觉满眼错别字,要么感觉有些诡异,总觉得有些字看起来比较毛糙。如果设置了浏览器的背景,就会发现那些感觉毛糙的部分是白色背景的小图片。
5、原始文字版PDG文件的总长度很大,但转换、合并成一个PDF文件后,如果合并时用的是Acrobat等具有消除冗余对象能力的合并软件,合并后的PDF文件长度会比原始文字版PDG文件的总长度小很多。原因很简单:为了保证每个独立的文字版PDG文件都能被打开,CX被迫在制作时在每个文字版PDG所包含的PDF文件中都嵌入了字体,但其实对一本书来说,正文部分每一页使用的字体都是相同的,所以原始文字版PDG中包含大量的重复信息。用Acrobat合并时,会自动删除相同的字体,从而减少文件总长度。换句话说,如果文字版PDG合并成PDF后文件长度基本保持不变,你就应该怀疑你是不是用错了合并软件了。文章源自惟康前行-https://www.wkqx.com/1405.html

文字版PDG虽然文件短小,但OCR毕竟是一个费时、费力的活儿,把所有书籍全变成文字版PDG显然不太现实。因此为了减轻服务器和网络的压力,在图像版PDG中又出现了清晰版、快速版的区别。换句话说,文字版PDG是不分什么清晰版、快速版的。文章源自惟康前行-https://www.wkqx.com/1405.html 文章源自惟康前行-https://www.wkqx.com/1405.html

 
  • 本文由 diego 发表于2024年7月21日 13:48:00
  • 转载请务必保留本文链接:https://www.wkqx.com/1405.html
评论  3  访客  1  作者  2
    • 读书人
      读书人 4

      应该是超星书籍特有的格式,中文书籍比较多的。

    匿名

    发表评论

    匿名网友