组织:中国互动出版网(http://www.china-pub.com/)
RFC文档中文翻译计划(http://www.china-pub.com/compters/emook/aboutemook.htm)
E-mail:ouyang@china-pub.com
译者:张彦富(zhyfln zhyfln@163.net)
译文发布时间:2001-4-26
版权:本中文翻译文档版权归中国互动出版网所有。可以用于非商业用途自由转载,但必须
保留本文档的翻译及版权信息。
康奈尔大学数字图书馆文档体系结构
(RFC 1691 The Document Architecture for the Cornell Digital Library)
Status of this Memo
This memo provides information for the Internet community. This memo
does not specify an Internet standard of any kind. Distribution of
this memo is unlimited.
Abstract
This memo defines an architecture for the storage and retrieval of
the digital representations for books, journals, photographic images,
etc., which are collected in a large organized digital library.
Two unique features of this architecture are the ability to generate
reference documents and the ability to create multiple views of a
document.
【介绍】
1989年,在Preservation And Access(保存和访问)委员会以及后来Sun
Microsystems公司的支持下,康奈尔(Cornell)大学和施乐(Xerox)公司开始合作
研究为图书馆内储藏的数据数字化建立模型。施乐公司负责开发大学图书馆资料
存取系统(CLASS),康奈尔大学负责开发通过网络访问CLASS数字化图书馆的软
件。
施乐公司和康奈尔大学图书馆工作人员紧密合作,首先一起明确了存储要求,
即要保存低分辨率和高分辨率两个版本的图像文件,低分辨率版本用于通过网络
浏览,高分辨率版本用于打印输出。然后定义了内部可导向的文档结构。施乐公
司开发创建和存储文档的软件,康奈尔大学开发允许通过网络浏览和请求打印文
档的软件。
康奈尔大学定义了基于CLASS文档体系结构,并按该体系结构来管理数字化
图书馆资料。
【文档体系结构概述】
正如传统图书馆保存的图书是按册而不是按页一样,电子图书馆保存资料也
必须是文档而不是一些图像文件。在将图书扫描成图像文件过程中,通过建立的
文档结构文件,能自动将扫描出来的图像文件按照图书原来页的顺序链接起来。
因此数字图书包括两部分——一组每页存为一个位图图像文件和将图像文件“装
订”成书的文档结构文件。另外为了能使读者能按作者、标题等书目信息检索电
子文档,还用数据库为每一个文档保存这些信息。在纸板图书中,除了有页的序
号外,还提供了许多其它信息给读者。首先是标题和出版信息,在正文前有目录,
正文分为章节,有时还会在正文后给出索引信息。当读者在图书馆书架上找书时,
就是靠这些信息决定是否借阅这本图书的。
建立文档结构就是为了能直接访问电子图书的这些信息,如果不存储这些信
息,当图书电子化后就不能利用这些信息了。
【文档体系结构要求】
下面列出了康奈尔大学数字图书馆文档体系结构的基本要求:
1.体系必须是开放的(即能方便出版和访问);
2.体系越简单越好(便于产品开发);
3.体系采用UNIX文件存储系统;
4.体系要满足标准使用,如作为FTP和Gopher服务器; (即一个文档的所有页
图像文件必须存储在同一个目录下,文件名必须按标准排序规则,即按
“0001.TIF, 0002.TIF, ... 0411.TIF”; 如果命名为“1.TIF, 2.TIF, ...
10.TIF”,文件就会排列成“1.TIF, 10.TIF, 2.TIF”, 这种排序不符和习惯。)
5.体系应能为相同信息按不同格式提供存储,例如 能为每一页图像文件存储不同
分辨率的文件;
6.必须为每一页图像文件存储一个低分辨率的“指甲图”,以便于浏览和数据共享;
7.该体系必须支持文件的分发,便于相似的文件存储在一起,允许对存储和性能
优化处理;
8.该体系必须对文档间相互指引提供支持;
9.该体系必须能通过网络将文件不同内容存储到其它服务器上;
10.该体系不仅要支持文档的分级结构,还要能定义文档的多个视;
11.该体系要能自由建立而不是事先规定文件的目录结构,这样就能将用其它方式
建立的文件能够简单地通过将信息加入到数据库中来建立文档,而不用拷贝
或移动文件。
【文档体系描述】
数字化图书馆包括数字化图书馆服务器、网络存储和关系数据库。一个数字
化图书馆包括一组或多组馆藏集,每一组馆藏集包括一个或多个文档。
关系数据库允许读者按作者、标题和文件代号来查找文档。现在实现的系统
中,关系数据库采用的是SQL,每一种馆藏集对应数据库的一个表。已经计划将
数据库升级到Z39.50来使用更优化的搜索方法,该协议已经成为图书馆数据库应
用的标准。
尽管从设计上可以从任何层次上甚至在单个文件级别上设置授权检验,但本
次实现访问权限设置在馆藏集级的。只有当有人试图打开文档或访问特别的内容
是才会给出警示通告。
每一个文档包括三部分:逻辑结构文件、物理关联文件和数据文件。
逻辑结构是文档的逻辑描述。从概念上讲,一个文档就是一个树结构,它的
叶子就是数据文件(图书的页)。一个文档的逻辑结构至少包括图书页的列表和他
们出现的顺序。通常文档要包括更多的结构描述。逻辑结构文件将文档的逻辑结
构与物理关联文件联系起来组成文档。
物理关联文件将文档的逻辑结构的最低层次(树的叶子)映像到存储数据的
文件。如果文档得一页有多个版本的文件,比如不同分辨率的图像文件,在物理
关联文件中都给链接到一起。
数据文件包括组成文档的数据。要能够包容所有格式,如影像文件,ASCII
文本文件,PostScript文件等。然而数据文件和其格式是一一对应的,以便在物
理关联文件中实现关联。也就是说,如果一页数据有多种文件类型存储,那么这
些文件必须确切地表示它的类型的信息。
【物理关联文件】
物理关联文件是将文档逻辑结构(文档的逻辑组成)和实际存储的物理文件
联系起来的文档文件。在物理关联文件中处理文档关联,能使一个文档全部或部
分地存储在不同的服务其中。
一个文档可以包括多种文档对象,而每一种文档对象又可以包括一个或多个
数据对象。如果一个文档包括最终的物理数据(比如有扫描建立的影像文件),就
要建立一个主文档对象。如果一个文档中包含有其它文档中的内容,就要建立一
个关联文档对象。文档对象按内部关联序号编号,在对应的数据对象行中也包括
该编号。
数据对象行包括文档对象号、文件关联号和文件类型三部分内容。数据对象号指
向文档对象行,从文档对象行可以得到图书馆名,馆藏集名和文档代号。用组元
<library ID>+<collection ID>+<document ID>+<filetype>+ <file reference>
(<图书馆代号>+<馆藏集代号>+<文档代号>+<文件类型>+<关联文件>)
保证能够正确找到文件。每一个数据行都指向单独的文件,如果文档的一页有多
种类型文件,就建立多行在数据对象。
在物理关联文件中所有的文档对象行位于所有的数据对象行的前面,文档对象行
要么作为一组一起存在文件的头部,要么紧挨存储在对应的数据对象行的前面。
文档对象行按文档对象号的顺序排列。数据对象行按期顺序号的顺序排列,不安
文档对象号的顺序排列。
在物理关联文件种字段间用竖条符|隔开。
文档对象行
字段 内容 备注
1 文档对象号 0为主文档对象,1-9位指向文档对象
2 图书馆名 服务器名
3 馆藏集名
4 文档代号 8位数字
5 作者
6 卷号
7 标题
8 版本
数据对象行
字段 内容 备注
1 文档对象号 和文档对象行中相对应
2 顺序号
3 关联文件 用于在文件系统中查找文件的关联数字
4 物理关联数字 与逻辑结构文件中相等
5 文件类型 1=TIFF 600dpi
2=TIFF 小图块
3=ASCII文件
4=ASCII文件注释
5=其它类型
6=TIFF 300dpi
6 备注
物理关联文件举例
+0|CORNELL|OLINLIB|00000001|Boole. Mary Everest||Philoscophy||
|0|1|00000002|5|1|| (关联文件号2,物理关联文件号5,600dpi TIFF影像文件)
|0|2|00000003|5|2|| (关联文件号3,物理关联文件号5,100dpi TIFF影像文件)
|0|3|00000004|6|1|| (关联文件号4,物理关联文件号6,600dpi TIFF影像文件)
|0|4|00000005|6|2|| (关联文件号5,物理关联文件号6,100dpi TIFF影像文件)
注:在上面的例子中,已经确保了关联文件2和3是同一页的两个不同版本,关
联文件4和5也一样。
【逻辑结构文件】
逻辑结构文件是将影像文件连结起来构成文档来提供文档视,该文件实际上
是一棵未安装的树,当文件打开的时候,读入该文件,就会重新建立了树结构。
为了方便起见,逻辑结构文件只包括一种逻辑结构,即页,用来按照纸板图书页
的顺序来排列文档。
文档结构行
字段 内容 备注
1 父结构号 是谁的子结构
2 顺序号
3 逻辑结构名 该结构的标号
4 结构号 和物理关联文件相同
5 子逻辑结构 该结构的逻辑子结构号
6 子物理结构 该结构的物理子结构号
7 关联
逻辑关联文件举例
|0|0|ROOT|0|4|0|0| 结构0,根,有四个逻辑子结构
|0|1|PAGES|1|100|0|1| 结构1,页,有100个逻辑子结构
|0|2|CONTENTS|2|22|0|1| 结构2,目录,有22个逻辑子结构,无物理子结构
...
|1|1|Production note|5|0|2|2| 结构5,是结构1的子结构,
标号为 "Production note"
无逻辑子结构,有两个物理子结构
在本文档中引用两次
|1|2||6|0|2|1| 结构6无标号
|1|3||7|0|2|1| 结构7有两个物理关联
|1|4||8|0|2|1| 结构8仅被引用一次
|1|5||9|0|2|1| 结构9是页的第五个子结构
...
|1|99||103|0|2|2|
|1|100||104|0|2|2|
|2|1|Production note|105|1|0|1| 结构105是结构的子结构
|2|2|Title page|106|1|0|1| 结构106有1个逻辑子结构
|2|3|Table of contents|107|2|0|1|
|2|4|Chapter 1. From Arithmetic to Algebra|108|6|0|1|
|2|5|Chapter 2. The Making of Algebras|109|4|0|1|
|2|6|Chapter 3. Simultaneous Problems|110|4|0|1|
|2|7|Chapter 4. Partial Solutions...|111|3|0|1|
|2|8|Chapter 5. Mathematical Certainty...|112|3|0|1|
|2|9|Chapter 6. The First Hebrew Algebra|113|8|0|1|
|2|10|Chapter 7. How to Choose our Hypotheses|114|9|0|1|
|2|11|Chapter 8. The Limits of the Teachers Function|115|5|0|1|
|2|12|Chapter 9. The Use of Sewing Cards|116|4|0|1|
...
|2|20|Chapter 17. From Bondage to Freedom|124|5|0|1|
|2|21|Appendix|125|2|1|1|
|2|22|advertisements|126|4|1|2|
|105|1|Production note|5|0|2|2| 结构是结构105的子结构
|106|1|Title page|11|0|2|2| 结构11的第二次引用
|107|1|7|15|0|2|2|
|107|2|8|16|0|2|2|
...
|126|4||104|0|2|2|
【实现细节】
用组元 <library ID>+<collection ID>+<document ID>+<filetype>+ <file
reference>( <图书馆代号>+<馆藏集代号>+<文档代号>+<文件类型>+<关联文件
>)来保证对文件的定位。 文件定位程序在特定操作系统的文件系统中将该组元
解析成完全路径和文件名。 由于图书馆计算机总是具有和UNIX文件系统相同的
体系结构,采用这种组元结构很适合查找优化。体系的每一层都有一个信息文件
来描述其底层体系结构。当打开一个图书馆、馆藏集、或文档时,文件定位程序
读取该信息文件来获得文件目录结构信息。下面给出两个例子。
实例一. 采用图书馆、馆藏集、文档、文件类型层次体系。
/<library name> (图书馆名)
LIBINFO.TXT 图书馆层结构信息描述文件
/<collection name> (馆藏集名)
COLINFO.TXT 馆藏集层结构信息描述文件
/<document ID> (文档标号)
DOCINFO.TXT 文档层结构信息描述文件
LOGSTR.000 逻辑结构文件
PHYSREF.000 物理关联文件
/<filetype1> 文件类型1
00001.TIF
00002.TIF
...
/<filetype2> 文件类型2
00001.TIF
00002.TIF
...
实例二. 采用图书馆、文件类型、馆藏集、文档层次体系。
/<library name> 图书馆名
LIBINFO.TXT 图书馆层结构信息描述文件
/<filetype1> 文件类型1
/<collection name> 馆藏集名
COLINFO.TXT 馆藏集结构信息描述文件
/<document ID> 文档标号
DOCINFO.TXT 文档层结构信息描述文件
LOGSTR.000 逻辑结构文件
PHYSREF.000 物理关联文件
00001.TIF
00002.TIF
...
/<filetype2> 文件类型2
/<collection name> 馆藏集名
COLINFO.TXT 馆藏集结构信息描述文件
/<document ID> 文件标号
DOCINFO.TXT 文档层结构信息描述文件
LOGSTR.000 逻辑结构文件
PHYSREF.000 物理关联文件
00001.TIF
00002.TIF
....
这种结构形式数据有些冗余,但是在讲一个完整的馆藏集安装到不同文件系
统上时获得性能上的优化。特别是第二中实现形式能使所有低分辨率的图像文件
存储在高速磁盘上,而将高分辨率图像文件存储在低速磁盘上,对低分辨率文件
实现快速访问,又能降低费用。这也限制其它软件系统(FTP、Gopher)访问权限
便于实现,只允许其访问低分辨率的图像文件、限制对高分辨率的图像文件的访
问。
【安全措施】
该体系结构未考虑安全措施。
【参考文献】
[1] Turner, W., "Cornell Digital Library Document Architecture,
Version 1.1 - 3/22/94", Library Technology Department, Cornell
University.
Author's Address
William Turner
Library Technology
502 Olin Library
Cornell University
Ithaca, NY 14853
Phone: 607-255-9098
Fax: 607-255-9346
EMail: wrt1@cornell.edu
RFC 1691 The Document Architecture for the Cornell Digital Library 康奈尔大学数字图书馆文档体系结构
1
RFC文档中文翻译计划