吴颜谈WEB3.0之二互联网垃圾信息的来源及解决方法（下）

颐和 2005-12-08

展开全文

        还有一种垃圾信息，我们可以称为虚假信息，或非权威信息。这样的信息也是非常多的。往往我们也是无法辨别的。也就是这样的原因，我们往往更相信一些官方网站所报道的信息，因为我们知道，他们一般是不敢乱说的。也就是因为这样，很多假信息都是披着权威媒体的羊皮而跳出来的，相信大家不止一次的听到报道说，谁谁谁，模仿什么什么网站的设计并网址发放什么什么虚假信息。也就在3天前，我还听到报道说，一位日本青年申请了一个和雅虎很像的网址，有设计了和雅虎一样的网页，在上面报道说中国正在偷袭日本，并向日本开战了的假消息，引起了很大的骚乱。这个事件也更清楚的说明了，只从信息的包装来判断信息的真伪是不够的。还有一个例子就是，如果现在有一篇文章，里面有很多种数据，而文章也说明这些数据都是权威部门得到的，这个时间如果你要验证，我想是很困难，最起码是需要花上一些时间的。而网络作为信息载体的特质和信息在纸上记录时期所具有的差异是根本性的。信息在纸上存在的时期，是受纸空间限制的，而网络时期，信息在网页上体现的时间，是作为全球信息的一个单位出现的，背后是有程序和无限的信息空间做支撑的。所以说，如果在互联网时期，还能把在纸媒体时代起效的欺骗方法搬到网络资讯时期，只能说明网络资讯时期还处于一个非常初级的萌芽状态。
        而WEB3.0时期的信息存在形式是和以往的存在的形式是完全不一样的。每个信息的最小单位，哪怕是一个统计数据，在表面上看，是一个简单的阿拉伯数字，但是在信息包内部，还包含了，这个信息的出处、信息产生的时间并信息的可信度等级等一系列属性信息。而这些信息是公用数据平台可以自动识别的。例如。虽然一个计算机销售商只是向自己网络商城一款计算机产品录入了一条价格。但是公用数据平台在记录上价格信息后，还会把这个价格信息的相关属性打包记录，这个包里还包含这个信息是谁在什么时间记录的什么产品的什么类型的价格，这条信息的可信性是高还是低等。而另外一个媒体的编辑也在自己的网站为同样一款产品录入一条价格的时间。就是价格信息是完全一样的，例如都是500元，但是由于信息属性内容不一样，所以这个500并不等于另外一个500。而信息的可信度上，商家的也比媒体的高，因为商家在商城所录的报价是要直接销售的，而媒体编辑的价格只是供人参考的，也就是说价格的录入方和录入地等信息产生的环境决定了信息的真实程度。所以说，既然连组合成文章的最小单位，文字和数据都包含丰富的属性信息了，而什么文章的可信度高，什么文章的可信度低就自然更容易分辨了。而网民在浏览带有数据的文章时，也可以随时查看数据的属性以了解起真实程度。如果你去引用别人的数据时，其实你也把对方数据的属性信息一起引用了，因为在数据包里，是一定数据属性信息的。既然如此。WEB3.0时期的网站和软件商就可以很容易在信息体现的时间过滤掉可信度低的信息。网民在看信息的时间，也可以通过设置可信度相应的数值来过滤内容不真实的垃圾信息了。如此看来。现在的我们所说的WEB2.0之前时期，只是把人们把纸媒体时期的信息开始搬迁到互联网上来了，但是在搬迁的时间，还是保留了信息在纸上所具有的形式。文章里的各单位的信息都是孤立和凌乱的，只是排列和展现，你无法看到字以下还有什么。
        第三种垃圾信息，我们称之为重复信息。如果你去搜索一个关键字，结果搜索出300条重复的新闻，你会认为有299条信息是没有用的垃圾信息，而事实上我们几乎每天都从事着从大量重复信息中挑选不重复信息并浏览的工作。这些重复信息不仅浪费了我们宝贵的时间，还严重的浪费了网络资源，而这些重复信息的生成也是有很多原因造成的。最大的原因就是因为各个网站都是封闭的。别人网站上的信息只有拷贝到自己网站上一份以后，自己的网站上才可以看到这样的信息，而为了起到拥有最多的信息，吸引最多网民的目的，各个网站都在疯狂的充实自己的内容。由于编辑不同和系统无法自动识别重复信息，很多网站内部都有很多重复信息，就更不要提网络上了。可以毫不夸张的说，目前网络上的信息至少有70%是重复的。既然如此，消除重复垃圾信息的最直接的方法就是消除网站和网站并信息小区域的隔阂，把封闭的信息容器变为开发的信息容器，用公用信息平台记录公用的信息类型，把对信息的引用和转载，变成对信息ID的引用和转载信息的记录。这样以来，标准的信息就实现了跨平台流动。各个网站也不用为了达到以提供更多信息的目的而把什么都放到怎么网站中了，因为每个网站其实都拥有了整个网络的信息。既然大家的信息都很多。自然各自的竞争的重心就转移到了，谁的信息更专业、谁的信息体现形式更友好，谁的网下服务和网上信息结合并互动的更好。而这个时间，程序才能有能力对信息进行识别，而过滤掉重复信息，如果多媒体对同一文章的转载，也只要列出一个转载媒表就可以了。用户浏览起来会感觉很清爽和有秩序。而搜索引擎的开发也可以有能力对重复信息做过滤并基于WEB3.0开发出具有“多关键字有逻辑的精确搜索”并具有智能搜索功能的下一代搜索引擎了。
        第四种垃圾信息我们统称为不健康信息。其实在讲第一种垃圾信息。信息在哪里体现的时间已经给包括了，并且我感觉，完全消除第四种垃圾的可能性在短时间是不可能的。只能把他们控制在一定条件下显示，而不是象现在一样泛滥。只有等到这个世界上没有人想消费这些信息了，这些垃圾也自然就消失了。但是目前的情况是，有很多人喜欢看这样的信息，所以我们在这里不在做讨论。