分享

共享信息的文化网格

 铃儿响叮当 2008-01-22
李幼平:共享信息的文化网格
共享信息的文化网格
----信息共享即将出现突破
中国工程物理研究院 李幼平

存储技术飞速发展,一个市价800元的80GB的硬盘,容量巳经是当天全国主流文化(上千种报刊、网站)图文字节总和的几十倍。本文建议,创造一种科学整合大量文化资源的内容定位(UCL)工具,利用直播卫星等数字电视广播通道,把整合后的文化资源普遍送达全国城乡,任家庭自由收藏、自由取用,形成全民共享信息的人文环境:“文化网格”。本方案还有助于解决上千门大中小学课程整体普及全国的问题,促进终身教肓理想早日实现。


1. 共享信息不该如此艰难
“各尽所能,各取所需”是人类的伟大理想。物质上的各取需和信息上的各取所需,都是某种共享,但难度大不相同。
物质共享的本质是资源母体的分配或瓜分(share),享用者的规模是受限的(scale-limit),超出一定规模,人与人之间必然出现矛盾,问题比较复杂。
信息共享的本质是资源母体的无损复制(copy),即重新产生许多一模一样的,享用者之间是无冲实的,规模是不受限的(scale-free),问题简单得多。
不幸的是,科学技术不发展到一定的水平,信息复制成本不降低到一定程度,人们很难醒悟到区别两类共享会带来多大的好处。迄今为止,人们依然习惯于用物质共享的方法去解决信息共享的问题,习惯于用物流的“公路”理念来解释信息共享,误以为“车多路堵”和“人多网堵”同样是必然的;弱势地区、弱势人群难以平等共享信息的现象,也是天经地义的。人们在“数字鸿沟”面前束手无策,看不见信息共享本当无冲突,享用的人数本可无上限的光明前景。
本文指出,存储器是现代的纸张,卫星直播是现代的印刷术,信息复制技术已经发展到一个临界点,足以支持在家庭直接复制和收藏大量数字文化资源,信息共享事业可能因此而获得突破。我国有可能在“十一五”期间初步建成一种全国城乡平等共享数字文化的“网格”(Grid)环境,率先在信息意义上尝试各取所需的伟大理想。

2.整体平移上千网站
基于互联原理的万维网,是当前按需共享数字文化的主流结构。它把文化资源(网页)事先存放在许多弧立的网站里,全球任意地方的任何人,都可以通过互联网把指定的网页复制到本地计算机中,供自己自由享用。这种通过“一对一”个案复制的按需服务,是通过带宽分配来工作的。带宽是一种物质性的资源,分配(share)服从总量守恒,用户多了就会产生“你用妨碍我用”的带宽冲突,没能体现“信息共享本当无冲突”和“规模无上限”(scale-free)优势。
如果家庭拥有海量存储器,资源不是存放在远处的网站里,而是存放在零距离的家中,问题将变得十分简单。于是我们提出了整体平移文化资源的想法。利用2005年即将上天的卫星直播,把上千种报刊、网站当天编辑出稿的全部内容,包括文本、声音或图象,不加选择地整体平移送到全国城乡;再利用家庭大容量存储器,长期、广谱收存用户可能发生兴趣的所有资源,形成内容极其丰富的“电子图书馆”,供家庭零距离自由取用。
采用卫星直播,意味着用户规模没有上限,成本极其低廉,可以遍及西部山村,使弱势人群也用得上、用得起。
采用家庭收存,意味着用户与用户之间完全独立,享用方式充分自由。每一个家庭独立指定下载对象,“凡曾广播,我都拥有”。内容既然已存入家庭硬盘,享用便是一种零距离的双向互动,没有带宽瓶颈,无需等待。什么时间、用怎样的方式享用什么内容,完全属于个人的自由。
上述基于广播和存储的“播存结构”,已经离现实不远了,请观察以下三组数据:
1.文化原创能力A 全国读者最多的上千种报纸、期利、万维网站和出版社,每天编缉出稿的总字节量,A<3-5GB/天
2.数据广播能力B 卫星数字电视转发器每24小时向全国广播推送数据的总字节量,B>300GB/天
3.家庭存储能力C 家庭有能力购买的硬盘容量C>80GB
显然,A< 的能力,已经超过全国主要文化资源的产出能力。全国性丰富的文化内容通过卫星广播,有可能当天就轻松存入每家每户。
我们希望通过上述“播存原理”,把主流文化资源整体平移到家庭,创建一种普照全国的“信息阳光”,广泛存文化于民间,创造中国人民轻松共享数字文化全新局面。

3 纳入“网格”的创新潮流
近年耒,受到电力网(Power Grid)事先整合资源的启发,计算机专家提出“计算网格”(Computing Grid)的创新理念。希望计算网格把整个互联网整合成一台巨大的超级计算机,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的广泛整合,全面共享。
网格理念的核心是“每一个用户都能享用整合后的众多资源”。播存原理也是事先整合资源,让全国老百姓直接得到千种文化资源的服务,其理念也是属于网格的范畴,可直称“文化网格”。由于共享对象是很容易复制的信息,文化网格的难度要低得多,而计算网格需要面对不可复制的计算能力与存储能力。
在信息共享意义上,“网格”是“网络顶层”(应用层)的某种演化与变异。当前的万维网或广播网,用户只能一个个地享用众多弧立信息资源的服务。网格则不然,它把众多资源整合一体之后,才送给用户,使得每一个用户可以同时得到众多资源的并行服务。
请见图1的栅格图形。一根横线代表一种文化资源(报刊网站),上千种文化资源通过同一个数字电视载波播向全国;一根竖线代表一个家庭,数以亿计家庭通过数字载波收到来自任一资源的的任何内容。横线与竖线相互垂直正交,形成覆盖全国的网格(栅格)。某一家庭如果对某一资源发生兴趣,只要通过竖线接通相应的横线,形成代表需求的连接节点,该资源的网页将源源不断地流入长条形的家庭存储器。
刚才已经提到,网格是一种应用层的概念,它的图论表达同网络底层很不相同。在网络底层,点代表资源或用户,线代表联结,几何图形用来说明传输结构如何跨越空间。在这里,关心的是“大量用户”如何广泛共享“众多资源”。所谓广泛,既指一个资源可供没有上限的用户享用,也指一个用户可以享用众多资源。“多”就应该是线而不是点,因此点线正好倒置。
网格的特点可以用pervasive(广泛深入)一词集中表达,既要求广泛整合资源,又要求广泛深入民间。所以,网格不是“一对一”的服务体系,不是Client/Server模式的结构,而是“多对多”的服务体系,Pervasive/Grid 模式的结构。

4.借助电视数字化营造网格
创建文化网格需要具备两个物质条件。第一,国家要具备传播数字电视的平台;第二,家庭要拥有大容量存储器。
我国广电科技“十五”计划要求,2003年起推行有线电视数字化,2005争取达到3000万户;2005年直播卫星上天,只要用一个40-50cm(脸盆大小)的天线就可以下载数据;2008年正式推广支持移动用户的地面无线数字广播,只要用类似于手机的天线便可以下载数据。
至于家用大容量硬盘,现在的市场价是80GB/800元(每百万字节一分钱),几年后会更低,更有可能进入普通家庭。
设想之中的文化网格如图2所示。
一个数字电视载波,除去纠错开销,净速率超出32Mbps。把它平均分配给1000个报刊网站,各得32kbps的子带宽。








子带宽是一种24小时永无不停顿的“常带”,依靠时间积累,每个报刊网站每天都有能力向所有用户直接送去345MB的内容。这个容量超过任何大型传媒当天文字与照片的出稿能力,编辑部不会感到带宽不够用。期刊一周或一月才出刊一次,若干刊物合用一个子带宽也就够了。用四个子带宽(128kbps)还可以实时传输MP3的音频,满足音频电台的要求。总加起来,数字电视载波推送上千种传媒绰绰有余。每个传媒既是网站又是电台,可以像网站那样随时发布信息,又可以像电台那样拥有无限的用户。卫星转发为所有文化资源营造一种“无处不有”(any where)的国家环境。
图2中的竖线代表一个个用户,竖线下面是家庭大容量存储器。每个用户兴趣不同,收存的内容各不相同,有人喜欢十字形,有人喜欢斜三角,收存的数量也有多有少。用户有权享用任一资源提供的任一网页,当出现这种需求时,网格计算机将自动命令横竖交义处的节点(黑点)联通,把内容存入本地。一旦内容进入存储器,文化资源就完成“无时不在”(any time)的使命。
“无处不在、无时不有”把文化网格的性质由“设施”升格为“环境”,由“路”的概念升格为“场”的概念,形成一种全民共享的文化服务,而且这种服务是以尊重个人选择为前提的(for any one)。
广播同存储相结合,实际上也是同计算机、同万维网相结合。除了传输物理层保留传统广播方式之外,从链路层到应用层,引入大量万维网成熟的技术。任何一个万维网网站,只要增加一条通往数据广播中心的文件传输线路,就自然成为文化网格的网站。相当于万维网网站多了一条通向用户的发行渠道,仅此而己。所以,播存系统不应单纯看成是广播系统的后代,它是以广播网为母系,以互联网为父系,经历遗传与变异之后进化而成的一种新体系。所谓变异指把信息资源存储于本地,广播网和互联网都是存资源于远处,需要时才临阵传来。这一点,播存网格倒是更像文化传媒的祖系—印刷书报。
总之,基于播存原理的文化网格,是一种未来的文化传媒,它像万维网那样内容丰富、自由选择;像广播网那样成本低廉、易于普及;像印刷书报那样存知识于民间,取用方便。也许,后人会把这种在万维网络(第四传媒)之后出现的播存网格,称为为第五传媒。

5.文化服务的人文设计
万维网最大的遗憾是短缺以人为本的人文设计。人类本能表达信息需求的方式是指定内容,指定最想知道的内容的语义。但万维网的资源与读者之间缺少直接沟通的语义工具,读者不知道哪些网页才是自巳最有兴趣的。万维网发明人B.T.Lee最近也提出要把万维网改造成语义网(semantic web)。我们的大胆想法是,利用播存结构推送网页的渠道,创造全新的文化服务:网页主动寻找对它有兴趣的网民。
这就要求人文专家创造性地设计两种语义工具:首先是“统一内容定位”(UCL)代码,作者用它定位内容的类别,读者用它定位对读物的大致需求。其次自由表达关注对象(事元或物元)的“关注词”,这是一种简明的语法结构,便于读者精确表达自己最关心内容细节是什么。
技术专家利用人文专家的成果,分两步执行“网页找网民”的任务。第一步,家庭计算机24小时在线,运用“统一内容定位”(UCL)代码,代理用户随时筛选不断流入的广播网页,把预定网站、预定类别的内容存入家庭存储器。第二步,计算机还对巳通过UCL筛选的网页进行全文预读,把句子中含有“关注词”的网页,放在优先的顺序上,推荐主人优先享用。第一步保“全”,第二步保“准”,最终自动完成“网页找网民”的全过程。
统一内容定位代码UCL同万维网的URL功能互补。URL从空间地址上定位,告诉你应该到什么网址、哪一台服务器上取来网页;UCL是从内容(语义)地址上定位,告诉你该网页谈论的是哪方面的内容。
拟议中UCL代码,字长16字节,分别代表网站(2)、栏目(1)、时序(5)和知识本体代码(8)。时序由5个字节40bit组成,代表文件首次投入网格的年、月、日、时、分以及在该分钟的序号。2+1+5=8,前8个字节赋于文件一个永不重复的唯一号码,便于在数据仓储中找到它。后8个字节是知识分类代码,由编者标注,指明该网页内容在国家推荐的知识本体分类学中隶属于哪一个领域,便于与其他网站内容相近的文件自动“类聚”和自动链接
UCL是沟通资源与用户的重要工具,是文化网格创新思维的内核。制定UCL标准时将遇到“完备性”与“精炼性”之间的矛盾。解决的办法是,在明确“最少必须”的前提下留有“可扩展”的余地。
往往出现这样的情况,通过UCL筛选下载的网页数量还是太多,其中还有内容雷同或完全重覆的。因此,在送交主人阅读之前,应先由计算机进行全文匹配预读。至于如何预读,还待于进一步讨论。最简单的要求是,提取包含关注词的句子。用户看了这些句子,也许可以直接解除自己的个人悬念,也更容易判断是否有必要细读全文。例如,你在体育新闻中指明“姚明”,在股票消息中指明“长虹”,在天气预报中指明“绵阳”,航班消息中指明“CA4152”,计算机根据网页中含有关注词的多少来排序,主动为您提供精细的语义服务。

6.信息共享的物理极限
复制信息(比特)需要消耗能量和占用物质,或者说需要付出一定的成本。在纸张上印刷文字所付出的成本,要比竹简上刻字节省许多。存储器是现代化的纸张,比特在存储器中复制,又比纸张印刷节省千倍万倍。人类共享信息的进步,很大程度依赖于复制成本的下降。人们不禁要问:复制比特所付出的成本是否存在物理极限?节省到什么程度才算到了尽头。国家文化环境的设想,国外尚无先例,没有可比较的相对座标,只有掌握这一极限,建立某种绝对座标,人们才能客观评估自己所掌握的技术的水平,明确继续前进的方向。。
先讨论复制比特的最小信号能量。根据C.E.Shannon公式,信道每秒钟复制比特的能力C
C=W•log2(1+S/N)……………………….(1)
其中,S=Eb•c:信号功率,Eb:每比特相应的能量,N=kTW:噪声功率,k:波尔兹曼常数,T:开氏温度,W:信道频带。将S与N代入(1)
C=W•log2 [ 1+(Eb/k T)(c/W)]…………….(2)
令W→∞, c/W=x→0
利用近似式 lim x→0 ln(1+x)→x
和转换式 log2Y=1/0.693•lnY
最后得知:每比特相应能量在信道频带无限制条件下,存在极限值Ebmin
Ebmin=0.693•kT…………………………….…(3)
在常温下(T=300k°), Ebmin=2.87×10-21焦耳。这是一个相当微小的数量。
利用上述理论极限,我们先计算一个理想共享系统,然后再拿它同现实的拟议中的文化网格比较,评估实际系统的绝对水平。中国拥有960万平方公里的国土,(约 1013m2),如果要求在国土上创造一种普及全民的信息环境,家庭只要拥有0.1m2截面的小型天线,就有可能在32Mbps的数据流中挑选收集有兴趣的文化内容。由理论极限算知,理想系统的最低发射功率为10瓦左右,而实际系统发射功率为几百瓦量级,只相差百倍之内。可见,拟议中的卫星直播设计是一种相当先进的技术。
大容量存储器的水平则不然,它尚有相当大的发展空间。今天80GB的硬盘,体积比茶杯小。同样容量的半导体非易失存储器,有没有可能做得比钢笔更小?这是完全可能的,甚至是指日可待的。中科院物理所的专家,正在从理论和实验两个方面证实单电子存储的理想。电子的质量是最轻原子核的一千八百分之一,只要存在纳米或更小的单元材料,80GB的存储器只有指甲盍那么大都是可能的。过去,人们对摩尔定理的关注,只停留在CPU的速度和光纤的带宽上。我们特别提醒大家对存储密度理论极限的关注。某种意义上说,存储技术水平决定着人类未来共享信息的水平。


7.共享信息的数学模型
文化网格有一个理论问题尚待研究:究竟要整合多少种文化资源,才能满足全国人民的基本文化需求。这是一个社会学问题,也是一种数学问题。
几个月之前,美国科学家A.L.Barabasi和E.Bonabeau用自己设计的软件,对十万个万维网站点的访问(连接)进行统计研究,发现少于万分之一的站点几乎操控整个网络的运作,被访问的次数远远超出一般站点。原本预期不同网站的访问量会像人类身高那样服从正态分布,但结果却发现极少
数网站的访问量超出正常,“我们就好像突然发现一些身高百尺的巨人,大吃一惊,并想出了scale-free(无尺度,或规模不限)这样的字眼来形容”。这两位科学家还指出这些拥有巨大访问量的资源站点,在网络图论显示中呈星爆形(starbursts)样式,并服从幂次定律分布。实验结果还显示,用“公路网”本比喻信息网是不恰当的。题为scale- free network的这篇论文发表在2003年第5期“SCIENTIFIC AMERICAN”上。
在“scale-free”现象启示下,有必要统计我国网站网
民的行为数据,研究信息共享的数学模型。所谓幂次律分布,指绝大多数网民访问的对象极为数不多的站点。例如,80%的访向集中于100个站点,而98%的访问集中于1000个站点。数学模型将用来评估文化网格需要组织多少资源,才能满足人民大众的个性需求,为资源的整合工作提供科学依据。
“scale-free”现象启示人们用共享热度来理性分辨信息共享与信息交换这两类性质不同的业务。共享热度的定义是信息资源被复制次数以十为底的对数。“一对一”的电信业务,资源在异地之间只复制一次,热度为零。信息共享则希望资源复制规模应该无上限,共享人数超出成千上万(热度超出三级四级),意味着对社会影响愈大。Scale-free现象还预示,文化网格投入运行后,有望大量分流互联结构的信息流量,缓解热门网站周边的拥堵问题,节省对宽带网络的巨额投资。互联网是信息交换的合理结构,播存网是信息共享的合理结构,两者互补互助,共同完成信息化的任务。

8.营造两个网格平台
建议在国家“十一五”规划中,在国家广电总局“村村通”卫星直播平台的基础上,由国家文化部组织人文设计,在2010年前建成能够推送1000种报纸、刊物、网站的国家文化平台,逐步把“广播电视村村通”进化为“数字文化家家有”;在中国教育电视台卫星平台基础上,实施“大规模并播”的技术改造,由国家教育部负责建造拥有1000门课程(大中小、文理工俱全)的国家终身教育平台,落实“终身教育人人学”。
在国家遇到入侵战争、自然灾害或严重疫情的特殊情况下,文化网格的两个卫星平台可兼作应急信息发布系统,直接向全国全民转达中央政府的声音。
希望国家计划部门继承六十年代“突破两弹”大力协同的精神,更多关注文化、教肓、信产、广电诸多部门规划的整合,争取“十一五”中在文化建设方面为后代人办成几件大事。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多