- 数据产品应该朴实无华 - 浮躁的认知会有大麻烦 - 如何正确认识自己,如何敏捷 更多优质内容请关注微信公众号“AI 前线”(ID:ai-front) 最近读到一篇文章'SQL 足以解决你的问题,别动不动就是机器学习',教我们落地之法,在这个浮躁的世界中,犹如一股清流,实在大快人心。就像皇帝的新衣一样,终于有人说了出来。 有位做供应链数据分析的朋友很开心的说正在创业中,打算在供应链金融方面有一番作为,用神经网络的方法做用户画像,然后进行市场精准营销。作者工科数学博士一枚,每每看到有人探讨这么实际应用的东西,都觉得汗颜(自己不懂)与欣慰(越来越多人参与)并存,以至于给我已经是博导的师姐说,“好好鼓励你的弟子,数学系的春天来了!” 但是,要泼一下冷水,想必每个投身于大数据、人工智能的人士都碰到过某个瓶颈阶段,就是想要更深入了解原理的时候,那些公式算法实在是看不懂啊。每次我只能劝慰说,就当那是个黑盒,你只要知道输入输出,就能得到想要的结果。难道我要告诉实情其实是,最快你得花费半年到一年时间恶补数学知识,才能知道什么时候用模式识别,什么时候用小波分形,什么时候那个东西是动态规划······ 这篇文章,继续泼冷水,“如果所有人都去做人工智能了,落地的事情谁来做?”,好比烧饭师傅都去研究自动炒菜机,在“懒人创造新的世界”之前,世界上的人都已经饿死了。认清自己手头要做的事情,比展望未来更关键,至少你能先存活下来。 不论是初创、上升期、转型还是平台期的企业,回答好自己是谁,为谁服务,服务得如何,怎样更好的获利这几个问题,离不开数据。 从产品的角度看数据产品:
到底怎样做?一个笨手笨脚的人(Klutz)都告诉你可以这样做:
让我们先来看看领英 2017 的一个岗位增长报告,谁说大数据已死的? 曾几何时,作为数据库管理员或者 java 工程师的你也动心想深入了解下何为数据科学,何为机器学习,何为大数据?别犹豫,其他人早就开始了(来自领英 2018 的行业报告): 一个很有趣的讨论,来自我和一位 BAT 数据分析师:
自然,我们在每一个评价后面,跟了一个“?”。但不管,就像项目竞标最好有个博士牵头一样,“大”代表着,新来的老板很喜欢。 同样,新来的老板更喜欢另外一个词“智能”,毋庸置疑的 Top One。作为数学专业出身的我,从来没想到过会有那么多人来问“神经网络”的算法怎样才能实现。他们都,疯了么?还是世上本无路,走的人多了,就有路了。每次我都用这个来安慰自己,这是一条光明之路,需要越来越多的人前仆后继,不管你扛着的是步枪还是大炮。
在本世纪初期,新零售流行“一单到底”和“零库存”这两个东西,愿望是美好的。我“不幸”也参与了其中对库存优化的计划中,那是一个零售业的 IT 供应商,为打造这个美好的愿景老板给了我一个艰巨的任务,3 个月拿出一个算法实现先进的补货策略。 于是,加班加点,带着一群人搜索学习了各种算法对进货渠道、缺货周期、日销售情况进行了分析,最终开发出一个几千行代码几十个输入变量的程序,准备上马。 这时,老板问了一句,“这算法准么? 某便利店商品 A 今天销售 20 件,库存只有 5 件,你算出来要补进 30 件,我排不过来货运啊?而且这两天卖得好是因为天热,过几天下雨咋办?” 最后,老板决定,还是按照老办法,盘点时由店长决定,快断货的时候补一周的货,灵活处理。 2005 年,作为方案架构师,“有幸”参与了某大型跨国物流集团仓储中心产能监控系统设计。系统要求很简单,监控每个节点的容量、吞吐、以及排队情况,提供优化方案改善效率。 不知道谁头脑一热,前期要做一个非常漂亮的 3D 效果的模拟系统,还能显示每个热点并进行预警。于是乎,一个加大伯克利的博士(现不知所踪),一个清华的博士(现某外资银行做算法),一个人大的硕士(现某金融系统分析员),一个交大博士(现某行业产品经理),开始学习 Photoshop 和 AutoCAD。悲惨的一幕随着数据从客户传来而开始,2000 多个线程并发跑,还是 B/S 的 3D 效果,性能可想而知。 被客户拿掉后,大家回顾说,还不如老老实实用 Excel 做几个表格和图形,能反映性能状态,发送问题原因,再研究下优化算法其实并不难。 这是一个 CRM 体系再造项目,用 Salesforce 替换原有老系统,作者参与的是其中 Business Intelligence 系统的再造,也就是俗称的企业报表系统。背景如下:
其实,它最终没有失败,只是所有人都累垮了:
分析:敏捷之一大忌就是怕重复工作,那是设计分析能力问题,不是延迟工作的借口,谁说数据产品就不能敏捷?
分析:从上往下剥离,老板要求的不一定就是对的(这往往无解),产品和业务必须在目标和方向上达成一致,以及技术决定生产力,这几点缺一不可,要突破却难上加难。
分析:还是敏捷问题,数据仓库权威 Ralph Kimabll 是一个典型的细节专家,他所追求的细节是数据架构设计以及企业数据平台建设的愿景。但是,这个项目是一个典型的 CRM 系统切换,业务再造是基本目标,这时追求极致的细节变成了不切实际的要求,带来的后果就是本末倒置,所有人疲于其实不那么重要的问题上。 有位猎头顾问对我说,目前大数据分析师的岗位不多,我近乎惊讶的回答到,''怎么会,这个时代,你招人不说和大数据相关,都会觉得不够档次啊'。事实总是证明我们是错的,拿开障目的那片叶子,正视真实需求,是多么难能可贵的企业家精神。 科学家是严谨的代名词,而大数据不需要严谨。是这样么?责任不同,视角也应该不同:
图:不同视角看 Score Card 传统与自动化的纠缠,从古至今一直存在。再一次提及这篇令人爱恨交加的'SQL 足以解决你的问题,别动不动就是机器学习',如果传统方式能达到 95% 的精确度,够了么? 当我们在所有的算法中,对于圆周率的使用仅仅是 3.14 就已经足矣,又有多少人知道并在乎 3.1415926 后面的一位是 5 呢? 最后那 5% 的精准度,是红海最后的利润。这是收到最多的一个反驳的论点。但是当我们的企业,有超过 80% 的用户对数据的认知,还停留在填鸭阶段;当我们的运维还相当大程度依赖于半自动化,是不是该多花点心思写个 SQL 之类的。搭建数据产品的过程和企业以及用户的认知息息相关:
认知的过程是相当漫长的,每一步都要踏踏实实落地,跑之前要学会走。 有客户问我何为敏捷?我的答复如下,不仅仅只针对数据产品:
|
|
来自: 昵称42427018 > 《算法与培训》