分享

我所认识的“基础设施级”站长

 nzpeach 2015-07-23

写人,不是我的长项,但还是想写一写高春辉这位大神,尤其是今天“互联网 ”火遍神州,连路边大妈都在讨论互联网的时候,更有必要讲讲这位中国第一代互联网站长,也是第一代站长中唯一一个依然坚持连续创业,不断为互联网贡献各种“基础设施级”应用的牛人。这篇文章不打算介绍他的履历,只打算爆一爆他不为人所知的创业思维,想了解背景资料的同学,可以点击文末的原文链接,去看百度百科。


知道高春辉是在我刚刚开始从CFIDO转到互联网的1998年,上了互联网,终于不用再每周跑到电脑市场买光盘上的软件了,因为有了“高春辉的软件站”,上面各种软件几乎都能找到,而且还预备了注册码和破解机。很惭愧当年还没有今天的正版意识,退一步讲,在PayPal还没有诞生的年代,想付费也没有渠道把钱付给远在国外的作者。


认识高春辉是在2002年的夏天,王晨昀请客吃饭,叫上了一些当年的站长,老高自然在列。那会他刚开始弄手机之家,跑到他芍药居的家里看正在开发中的网站,然后发现这个网站居然只有一个手机归属地查询的输入框,整个页面不超过10k,一行CSS都没有。后来,不知道老高怎么弄的,这个输入框被Google相中了——只要在Google里面搜索手机号,首先显示的就是手机之家提供的归属地查询,而搜索“手机”,第一个结果也是手机之家。加上靠谱的论坛运营,在那个论坛为大的时代,手机之家自然而然的火了。


2003年夏天,我正在济南帮一家SP带技术团队,老高给我打来电话,说他打算全职弄手机之家了,问我要不要入伙一起干。但是当年济南的IT环境很不好,几乎很难找到可以接替我的人,所以此事就无疾而终了。直到2007年,老高说他又要做新东西了,我再不加入就赶不上这拨儿了,就这样被忽悠到了他的团队。


当时他在业余时间搞了两个项目,一个是图书搜索,一个是后来非常出名的ECShop。由于我比较擅长检索和文本处理,所以就接下了图书搜索的项目。这个项目其实是出于老高自己的一个恶趣味——喜欢搜集各种旧书,而又没有很好的办法查清楚旧书的历史和再版数据。解决方案听起来很简单,把中国有书籍出版记载以来,所有的书目数据电子化和结构化,对数据做聚合和重新归类,提供一个搜索引擎。这件事听起来简单,但其实做起来是个大工程,首先就是要拿到从清朝末年到2007年的所有出版记载——2007年的好办,清朝末年的本身就是文物了,中间还有文革、1989等种种历史断点。总之是非常不好找,具体的找寻过程就不说了,好在最后终于找齐了所有纸质的数据,并且花掉几十万劳务费,雇佣几乎所有在北京可以找到的录入员,录入成电子版。如果你当年恰巧在北京做文字录入的工作,相信你肯定见到过那堆4米多厚、散发着霉味的原始资料。


很长一段时间,我在楼上负责图书搜索的结构化处理和网站编码,老高则在楼下带着一帮人做那个电子商务建站系统 ECShop。半年后,网站上线,当时还没有Google Books,多数实体书不可能被互联网搜索找到,只有一个豆瓣可以提供图书搜索,搜索出来的基本都是新书,想查旧书,只有我们这一个途径可用。自然的,这个项目变成了一个“基础设施”,只要与书有关,首先就要查我们的 cbdb.cn ,我们提供了几乎所有中文书籍的版权页信息,用专业名词叫做 MARC 数据。同时基于对 MARC 的结构化和数据挖掘,也做了一些衍生应用,比如想了解一个作者的创作历史,我们提供了一个 Timeline 来显示作者历史上所有的创作经历。


后来由于这个项目的需求相对小众,我们也没有想好如何从这个服务上面赚钱,就关闭了这个网站,集中精力去做ECShop的开发。而最终ECShop也不负众望,成了互联网上的另外一个“基础设施”,到今天仍然有大量的电子商务网站采用ECShop作为其底层系统,直到今天,经常还有人来咨询我ECShop某个函数的问题。后来因为自己开始创业,就离开了老高的团队,专心去搞我的地方社区了。


到现在我都怀疑老高的创业项目都出于他自己的恶趣味,做ECShop时他就喜欢囤积各种图片(啥图片,你们自己脑补),为此还在家里搭了一个巨大的NAS系统。所以2010年,他说他的下个创业项目是壁纸站时,我倒是一点都不奇怪。


在壁纸应用已经满街都是的情况下,老高的“爱壁纸”为啥可以突出重围,变成了市占率第一的app?其实还是要归功于他的又一个“基础设施”——IP地址/物理地址对照库。壁纸类应用比的是图片质量,高质量的图片又会带来极大的数据流量和相对缓慢的载入速度。想要提升图片质量的同时兼顾用户体验,必然要通过CDN来分布式存储和分发图片内容,而市场上所有CDN服务商的IP库都不是非常准确,所以这厮自己鼓捣了一个IP地址对照表。IP地址属于互联网诸多垃圾协议中的一个,从来没有办法精确的得知IP地址的实际位置,市场上有的IP库,也多是估计,加上由于地址紧缺,IP地址变动在最近几年越来越频繁,想要准确、实时的知道IP地址的真实位置,是一个必须投入大量精力和技术去做的事情。


当时老高又给我看了一个几乎没有任何设计的空白HTML,当时这个网站还叫 17mon.cn ,不过还好这次至少有了一点CSS,所以看上去不如早期的手机之家那么惨。这个简单的HTML的背后是分布在全国乃至全球的100多台服务器。简单来讲,这些服务器会分工负责,通过BGP协议和私有的方法,监控各个国家和区域的IP地址变化,如有变化就即时导出新的数据,人工处理和分析后,再对地址库进行更新。这里不想讲具体的工作原理,如果要展开工作原理,估计还有另写一篇文章。


后来,这厮就干脆把大多数时间放到了这个项目上来,并且把网站的名字改成了 ipip.net 。现在,包括迅雷、小米、陌陌、汽车之家在内的无数网站和CDN供应商,都以 ipip.net 的数据为依据进行CDN调度、广告投放定位等工作。有好事者做过分析,表示因为 ipip.net 对IP地址的准确定位,大大提升了CDN的命中效率,因此中国互联网的平均网页载入速度,提高了30ms。按中国6.4亿网民,每日至少浏览10个网页计算,ipip.net 每天为全国网民节省的时间,就超过了5300小时。


互联网 大潮下,涌现了无数看上去非常美的网站和服务,上门送餐、上门美甲、上门剃头诸如此类种种。但在我看来,这些看上去非常吸引人的业务,无非是把快递公司的活儿给包了,而且干的更苦逼。技术和算法不是这些公司关心的,他们更关心自己的业务看上去是不是足够“性感”,是不是可以帮助他们吸引到下一轮投资。老高这样默默在背后,为互联网贡献了n多基础设施的技术流创业者确实不多了,更难得的是,他依然在创业的路上飞奔,而不像同时代的其他业者一样,跑去了投资圈或者干脆退休回家了。所以最近,老高又跟我透露他的下一个“基础设施”级创业项目了,具体是啥还不方便公开,到时候大家一起看就是了。


我们在谈论互联网 的时候,切勿不要忘了互联网的本是通过创新来解决实际问题和痛点。互联网的诞生本身就是一个创新产物,互联网历史上的每次商业突破的背后,也都是创新在后面支撑。中国的互联网 ,需要更多老高这样更加关注互联网的弱点、有能力通过技术手段来解决问题的资深站长来引导创新。而无论如何,相信我,给送餐员配个智能手机,或者弄个微博卖煎饼,真心不叫互联网

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多