分享

那么多视频要上传到网站上,网站是怎么容纳,是不是要装几千亿G硬盘?

 新华书店好书榜 2017-03-17


随着科技发展,各类资源生产出来,那作为网站主,这些视频是怎么容纳的呢?


海量硬盘

作为比较大型的企业网站,例如爱奇艺、腾讯等公司,都有专有机房。这些机房内拥有大量硬盘。毕竟相比较来说,硬盘的价格实在是太低了。想想我们只需要四百块钱就能购买1T的硬盘资源。对于大型公司来说,完全有准备大量硬盘的实力。


压缩

在用户上传文件或者视频之后,一般会有专门的转码压缩服务器。用来把上传的文件进行压缩。所以有的时候你可能看到,自己上传的高清视频,在进行查看的时候,清晰度并不是很高。这是因为进行压缩的效果。


去重

在真正保存到硬盘之前,需要对上传的文件去重。检测硬盘中是会否已经有相关的文件了。如果有的话就直接指定过去了。

这也就是为什么很多网盘上面,会有秒传的功能。命名好几G的文件,几面就能上传成功就是这个原理。



看你说多少G硬盘,我这个强迫症就受不了,普及下知识,1MB=1024KB,1GB=1024MB,1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB,1YB=1024ZB,1BB=1024YB,1NB=1024BB,1DB=1024NB!

很多大型网站是有自己独立的机房,面积不等,有的可能只有一个卫生间那么大,有的有好几个足球场那么大。这些机房专门放有存储功能的服务器;

很多人用的网盘,你可以理解成你租用这个网络机房里面服务器上的硬盘。

给你看看谷歌的机房,这只是一角!


数据说话太枯燥,为了更直观,我讲一个故事。我几年前在新疆,有人说Baidu准备在新疆背部建一个数据中心存储它的数据,因为那儿气温低,可以节约不少电费。你大概估计一下这是多大的数据量,让一个千亿级的企业冒着民分的危险,跑那么远去建一个数据中心就为了节省电费。

下图是数据中心概念图,里面大部分是存储介质,你大概感受下,什么是海量信息。


1、的确如此,你看到的每一部电影、音乐,都是巨量的数据流,它们的确都需要有储存装置,一般而言以硬盘为主,部分采用高速固态硬盘SSD,极少数数据放在缓存cache内。

2、现代视频中心都自建有数据中心,规模非常的庞大,而且今日的数据中心不仅仅是过去方硬盘阵列方式,今天已经基本上演变成服务器群了,一个数据中心有数万个服务器根本就不稀奇(每个服务器内置多个硬盘),功耗数千千瓦,抵得上一个大镇的总耗电量。因此,在很多数据中心,服务器、电力不是问题,反而散热才是真正的问题。

这就是很多服务器中心会建立靠近北极北欧国家,就是想直接利用低温降低服务中心的热量。

3、也有部分公司因为实力与需求问题,建不起集中式数据中心,就采用分布式数据中心替代,深圳采用用户的电脑替代数据中心,降低建设成本,但这种方式需要在用户电脑中内置特定的数据分享程序,表现也不是很稳定,是小公司的无奈做法。

估计象谷歌,youtube这样的网站,他们自己人也搞不清楚自己有多少台服务器,多少G硬盘,据说谷歌全球有几百万台服务器,每台服务器按1TB的硬盘,就是上百亿G的存储容量了,谷歌一刻不停的把全球的网站收录到自己的服务器,youtube每分钟都有大量的视频上传,说是数百小时的视频,差不多是百G大小,形象来说普通家庭能用十年的硬盘,它们分分钟就满了。当然对这样的大公司来说,硬盘不值什么,每天用坏的都不知道多少,据说美国有个云服企业,在因为天灾硬盘供货不足,到处买硬盘,加钱扫货。所以,说上千亿G,也不是什么事。


本人工作在存储阵列厂商,简单说下视频存储公司的解决方案

存储选用上主要使用分布式存储加分布式文件系统,保证高并发高带宽,存储底层会一定选用分层技术,怎么说呢,很多视频点击量爆高,当然会存储到大容量缓存中,外加外置UPS保护,那么当视频没人看的时候,就自动迁移到便宜的7200转或5400转的HDD存储层中。现在的硬盘最大做到60TB了,企业级大容量氦气盘已经有10TB,12TB了。特别老的视频文件且为普通用户上传的会被后台分析平台筛选出来删除来释放空间。尽量说的直白一点,有什么疑问欢迎留言讨论。


这只是某运营商的一个柜子而已,而这个机房有几百个柜子,这样的机房在某市有十几个而已


分为好多中,一种是服务商自己建立储存服务器,一种是服务商租用存储服务器,一种是服务商将用户的PC和自己的服务器合并当做存储服务器,说说第三种吧,第三种是新式的组合,比如一部大话西游,最开始服务商是存储在自己的服务器的,当10个用户下载后,服务商将用户的资源建立成链接库,其他用户再下载的时候服务商软件直接优选宽带从空闲用户PC端下载,这样服务商的存储就节省下来了,当然这种模式并不成熟,目前已知360在这样做。

确实是用好多硬盘来储存,另外,采用p2p技术,热门的视频其实大部分存在用户的电脑里,打个比方,你在用迅雷下载电影,会发现几千个链接,那些都是普通用户的电脑。很多相同的视频,服务器会采用云技术对视频进行统一编码,只存一个而已。此外,硬盘会有坏的时候,所以视频还要做备份,同样是用硬盘。


首先要了解什么是对象存储,最简单的方法是每个文件算hash值,改文件名值不动,内容动任一个字节hash就变了,就视为不同的文件了,就需要重新存了。一般同样的文件会在不同的机房有3-5个备份同时也是分流,p2p的话,大家电脑上也会有,服务器上就可以少存点,就是所谓的比较热的种子。其次从业务角度讲,原创的文件毕竟比较少,相对多的,需要大空间大带宽的还是影视品的共享,这些看似没人网盘都有,但其实都是类似一个指向的标记而已,用不了几字节

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多