2021年AI Top Stories

520jefferson 2022-01-03

展开全文

通用预训练底座大力出奇迹

数据和模型参数规模竞赛

自G家的BERT横空出世，以1亿多参数的预训练+微调范式模型刷爆NLP的各个任务以来，有钱有数据的各个大厂开启了预训练大模型的参数规模竞赛。今年GPT3[1]把参数拉到1700多亿，并且开放的接口中显示出令人惊叹的任务迁移能力、少数据下fine tune的效果等；国内NLP一哥百度也和鹏程实验室发布2600亿参数规模的知识增强模型[2]；G家的Swith Transformer[3]更是直接推向了万亿规模。除了有钱的大公司外，国内的人工智能实验室也不甘落后，由北京市政府直接牵头建立的智源研究院，推出的悟道2.0[4]参数也拉到了1.75万亿参数。NLP Researcher很多大佬都在刷大模型，CLUE/Super Clue等榜单也几乎成了武林兵器排行榜，兵家必争之地。

为什么

大力能出奇迹：大数据加上大参数的模型加上各种知识增强、训练方法的优化等的确能够逐步的拉高效果上限
AI应用工业化的希望：大模型的多任务迁移能力，在少量数据简单微调即可取得较好的效果等这些性质都给各个大厂带来一个非常重要的信号是，这种方式有可能带来AI工业化应用：即这个大模型犹如内燃机/蒸汽机一样，可以在不同的场景下都可以用起来，应用者不需要多深的AI经验（不用了解内燃机的原理），用我的工具微调下就好（加点汽油），边界收益极高。
不是谁都能自己造个内燃机出来，行业也不需要那么多的内燃机：从2出发，大的通用底座需要大量的数据、大量的机器以及不少训练方法等上面的技术问题，因此这个事也只能是有钱有数据的大厂做。并且毕竟行业也不需要那么多的大底座，如果有一个效果最好的，价格也合适的大底座，那么其他的底座就可能完全没有价值（自己厂内使用除外），因此竞争愈演愈烈

大模型很好但是

百亿往上的模型主要还是在屠榜：纵然各个榜单的效果不断的被大模型刷新，然而从产业视角看，产业内没有一个大规模的AI系统中直接用百亿甚至10亿以上参数的大模型来serve，主要的问题是inference的延时和机器消耗的性价比问题：1）就算不考虑性价比问题，很多infernce的延时也无法满足线上的需求 2）性价比低，机器太贵
大模型蒸馏下的小模型效果下滑还是比较严重：业内还是很希望把屠榜的能力在线上应用起来，现在应用的方式主流的仍然还是蒸馏的方式，不过不少任务上蒸馏的效果下滑还是比较严重的，尤其是生成的任务。以开放域对话中的生成模型为例，32层的transformer蒸馏成12层的PPL大概要损失3-4个点左右；当然不少领域理解类的任务损失没有那么大。
少量数据微调并不是在所有场景都效果足够好：很多相对简单的场景是能够取得不错的效果，或者是能够取得可应用的效果。但是对于相对复杂和沉淀比较多自己数据的场景，通常还是要用自己场景的数据继续预训练，而且有必要的时候还是需要增加适合自己场景的预训练任务

Transformer is all you need

Transformer源于NLP领域，当年G家的一篇All you need is attention和而后的BERT模型几乎摧枯拉朽的把NLP领域的各种RNN取代了。CV领域由于视觉的层次化特点等依然还是CNN的天下，今年开始有诸多Transformer挑战CNN效果的工作，ICCV 2021的BEST PAPER SWIN Transformer[5]在目标检测和分割任务上取得新SOTA将Transformer占领CV的号角吹到最响。而语音领域Transformer已经有非常多的工作了，Transformer-Transducer、Speech Transformer、Transformer-TTS等。大一统的天下似乎近在咫尺

多模态智能曙光初现

随着大一统的Transformer结构在语音，语言和视觉上的大放异彩，同时结合大模型的预训练和大数据的加持，多模态模型今年看到不少突破，以Open AI的DALL-E模型[6]让人印象最深刻，输入自然语言能够生成语义相关的图，'绿色的牛油果形状的扶手椅'惊艳业界。从产业来看，随着tiktok在全球流量超越Google和Facebook变成绝对顶流，抖音和快手在国内月活创新高，多模态的短视频内容已经成为机器内容输出的主流。而在人机交互的输入上，多模态的融合倒还并没有看到特别亮眼的突破。

是时候给AI带上适当的镣铐

通常在政府治理中前期会给一个方向和行业比较多的创新，尽量不去过多限制，当技术和行业逐步发展起来后，也同时会暴露出很多的社会问题，于是乎通常这个时候就需要在政府层面制定适当的规则和限制。以AI的应用为例，2021年是全球政府继续加码规范AI算法应用，国内以个保法落地为重要事件，在AI应用的个人数据隐私上做出很多规范，影响到包括各种人脸、语音、行为等隐私数据的应用。移动互联网生态上以ios新系统对app的数据获取有更强的管控，支持用户自定义关闭各种数据追踪，也是第一次公众发现各种应用都在做各类数据的采集，和LBS无关的应用也在不断的获取你的POI信息。对用户而言，隐私安全和保护有一个长足的进步，对于AI技术和行业应用而言，未来如何做到原始数据不上云也能够持续的优化效果变成重要的挑战。包括如何做端云一体化的AI Inference、联邦学习等。

AI+科学展现出十足的潜力

2021年是AI应用在各类学科，包括化学、生物、物理、医学、数学等各个学科上爆发的关键年。尤其是2021年是新冠爆发后的第二年，没有想到的是病毒肆虐了两年依然未看到有止住的趋势，生物和医学方向有更多的人关注和投入研究。AI结合的应用也层出不穷，以Deep Mind的在nature上发表的AlphaFold[7]为重要的标志性工作，AI在蛋白质结构预测领域的效果突破几乎让AI和生物领域达到了一个高潮，国内也开始涌现出诸多AI结合生物制药等领域的公司和创业公司，包括我厂的百图生科等。回想当年高中时的那句'21世纪是生命科学的世纪'，颇有感慨，期待2022年在更多领域看到AI的应用和突破。

增强学习还在修练内功

人工智能有三大主义流派：符号主义、连接主义和经验主义，其中连接主义的代表深度学习给AI带来跨越式的发展，深度学习结合知识的增强，今年也有很多的进展和突破，各种预训练模型中引入领域的知识等是连接主义和符号主义融合的典型代表。经验主义的代表是增强学习，alphago一度把增强学习推向通往通用强人工智能的关键之路，深度增强学习一定程度上也是连接主义和经验主义的融合代表。在各种棋牌、游戏等上打败人类后，增强学习还缺少在更广的应用领域实现突破，2021年增强学习领域也依然主要在修炼内功[8]，并未看到在技术和应用上有breakthrough的工作。个人的视角来看，增强学习的冷启动，长序列决策中数据的稀疏，训练的收敛等问题都一定程度上阻碍了增强学习突破下一个临界点。期待2022年能看到这个领域的突破，毕竟和环境交互并持续学习是人类等生物智能体的关键智能体现之一。

References

'2021 Top AI Stories' andrew ng: https://read./the-batch/issue-123/
GPT-3：Language Models are Few-Shot Learners；https:///abs/2005.14165
ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation,https:///abs/2107.02137
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity，https:///abs/2101.03961
悟道2.0：https:///
SWIN Transformer：Hierarchical Vision Transformer using Shifted Windows
DALL-E：https:///blog/dall-e/
Highly accurate protein structure prediction with AlphaFold. https://www./articles/s41586-021-03819-2
ICLR-2021强化学习的最新研究与应用：https://zhuanlan.zhihu.com/p/412666507