DeepSeek就算蒸馏,也是合理的
没必要重复造轮子,没必要浪费资源。
美国AI巨头高管:像DeepSeek这样蒸馏后采取开源,其实是合理性的,没必要所有公司都从头开始训练大模型,这会导致资源的浪费。
这美国高管说了大实话。哪怕就算蒸馏也没啥问题,只要你蒸馏开源大模型,这肯定是没有任何问题的。
况且,蒸馏后你并没有选择闭源收费,还能够大方开源,这是非常合理的。
原因就是大模型本来就是需要耗费大量的资源,你一个新公司短期靠少量芯片,根本就是不可能的,因此,我们可以采用蒸馏的技术,毕竟这技术是很常见的。
别人训练七八多年的大模型,你一年时间就做出来了,确实可以节约大量资源。
这对世界,对资源来说是好事。所以,这对很多新创业公司,是个好机会。
但是,有人要问了……
为什么蒸馏技术能够超越原创?
这又涉及到另一个技术。就是采用多种大模型融合,从而选择出最佳的答案!
这就像在一个班级得到这样答案,但你在全国五六个优秀班级得出五六个答案。
然后,你再将这些答案融合成最佳的答案。这就是站在巨人的肩膀做超人!
因此,我们没有必要讨论蒸馏是不是有点投机取巧,关键还是从大局来说:确实没有必要所有创业公司都从0开始训练大模型。
如果大家都从0开始训练,你想想要浪费多少的资源?多少能源?多少芯片?多少人才?
就算你再花个2-3年都不一定能够做到出来,所以我真不觉得蒸馏有啥问题!
没必要重复造轮子,人类进步就是好事!