分享

数据是源头,没有数据就没有智能

 pingwba 2023-10-29 发布于湖北

   今年4月,微软公司总裁布拉德·史密斯在接受采访时表示,中国的研究机构和公司将成为ChatGPT的主要竞争对手。随着亚马逊、谷歌等美国科技巨头在生成式人工智能发展方面的竞争日益激烈,中国也不会落后太多。“我们认为有三家公司处于绝对前列,”史密斯称,“一个是与微软合作的Open AI,第二个是谷歌,第三个是北京智源人工智能研究院(BAAI)。”

  研究人工智能超过30年,擅长视觉信息处理与类脑智能,2021年就提出大模型时代即将要到来。他就是北京智源人工智能研究院院长、北京大学计算机学院教授黄铁军。

  近日黄铁军在接受新京报专访时表示,大模型是一个时代方向,目前处于人工智能发展里程碑式的节点。人工智能或可以与工业革命、电力革命相提并论,工业革命替代人的体力,这次是替代人的智力,“要把大模型产业看成社会经济发展的新阶段”。

  2018年,北京智源研究院成立,是人工智能领域新型研发机构,也是国内最早从事大模型研究的机构之一。9月,在北京大学新闻与传播学院报告厅,黄铁军开讲“人工智能最新进展与未来展望”,他表示,“人工智能不断发展进步,也许会挫伤人类万物之灵长的骄傲。”

  在接受访谈时,黄铁军表示,数据安全、隐私保护是人工智能时代不能避谈的问题。没有数据就没有智能,数据是源头,用好数据、管好数据,人工智能才能健康发展。大模型的智能水平主要取决于数据规模、丰富程度。

  谈“智源”

  大模型才刚刚开始,将来智力服务就像电力服务一样随处可得

  贝壳财经:当时是基于哪些因素及判断成立了智源研究院?

  黄铁军:2018年,北京市支持建设世界一流新型研发机构实施办法,人工智能是北京市关注的最重要方向之一,智源研究院定位为人工智能领域新型研发机构,是北京最早一批新型研发机构。我们密切关注人工智能技术发展,基于对未来产业的判断,2019年决定集中主要精力资源做大模型方向,当时还没有“大模型”这个词。

  贝壳财经:智源研究院在2021年3月和6月分别发布了大模型悟道1.0、悟道2.0,为何到2023年6月才发布悟道3.0?

  黄铁军:这是从“大炼模型”向“炼大模型”的转换阶段,随着模型规模扩大,智能能力会越来越强。我们继续往前演进,在研究策略上也有一些变化,大模型训练需要大量算力和海量数据,需要大额投入。对于科研机构来说,不可能无限制扩大资源投入,需要回归科研机构的研发定位,在算法创新方面深耕;而在算力和数据方面扩大规模,是产业所擅长。

  我们调整建立一套大模型技术开源体系,以促进大模型研究与产业协同创新,这是我们的工作重点。所以,2021年6月,我们正式向“新一代人工智能”重大项目提出组织一个大模型项目体系。这就是2023年正式启动的“1+X+Y”旗舰项目群,其中智源研究院牵头平台项目。

  贝壳财经:悟道3.0发布后反馈如何?

  黄铁军:我们完全开源,毫无保留,和产学研一起创新迭代版本,发布后引发了很大反响。现在大模型热,发展也很快,大家感觉是白热化竞争状态,其实我们的心态要冷静或者稳定得多,大模型才刚刚开始。

  将来的智力服务就像电力服务一样,随处可得、价廉物美,每个人、每个家庭、每个企业都是这样的获取方式,人工智能大模型是背后的一个技术而已。虽然电力发展一个多世纪,已经很普及,但发电、配电、输电技术研究工作一直在迭代发展,至今还在进行。

  贝壳财经:2021年智源研究院就已经提出大模型时代即将要到来,直到2023年初通用大模型才从国外火到国内,进入公众视野。如果悟道3.0抢先发,是不是影响更大?

  黄铁军:要说没有遗憾也不符合实际情况,但总体来说,我们认为这是一个时代方向,不是一年两年就盖棺定论的事,而是需要十年二十年的技术迭代和演进发展。此外,也有一个很实际的原因,要训练更大的模型,就得投入更大的算力和数据,这也不是一个机构的体量所能承受的。

  贝壳财经:目前对公众开放的大模型产品,哪些有超出悟道3.0?

  黄铁军:大模型需要通过用户迭代,也是海量用户不断提升改进产品和服务的必要过程。比如,第一代搜索引擎并不够好,随着用户量上升,搜索准确度会越来越高。大模型可以产生无穷无尽的回答,哪些回答是用户最喜欢的,同样与大量用户迭代有关。

  不同于产品类模型,悟道是技术示范模型,目的是验证模型训练技术水平,推进技术开源迭代发展。大模型产品和服务是企业的事,谁能做的更好、最好,我们都很高兴。

  谈现状

  大模型产品向公众开放是人工智能发展里程碑式的节点

  贝壳财经:8月31日北京首批5家大模型产品已经面向公众开放,开启了大模型产品应用的热潮。对此,如何评价国内大模型产品的发展现状?

  黄铁军:这是人工智能发展里程碑式的节点,一系列大模型上线后,也进入广泛应用推广的发展新阶段,更好地服务于广大用户。

  贝壳财经:你曾提到全世界只需要三个大模型生态,需要具备哪些特质,目前哪些大模型具备基础?

  黄铁军:大模型生态具有两个层面的含义,一是大模型技术体系,二是大模型运营商。生态超过三个可能性很小。比如,移动互联网主要俩生态,iOS和安卓。通过大模型给大量用户提供智力服务的运营商屈指可数,类似国家电网或电信运营商,中国市场可能两三个。

  大模型提供智能智力服务,智力服务有高低。高就意味着训练数据需要足够多,争取全量数据,需要实时获取数据,全球产生新数据要即时吸收到模型中,7×24小时训练和服务,这需要巨大投入和运营能力才能做到,目前还没有哪家具备大模型运营商能力,这比国家电网还要复杂。因此不仅仅是一个简单的产品竞争问题,需要整体规划设计。

  贝壳财经:业内认为大模型让人们看到了通用人工智能(AGI)的曙光,如何理解大模型和通用人工智能(AGI)的关系,通用人工智能真的有望实现吗?

  黄铁军:现在是从专用人工智能向通用人工智能发展,大模型是实现通用性人工智能最主要的技术路线,还有其他技术也在发展,目前来看效果展现出来了。人工智能正在往通用方向发展。

  但是通用人工智能(AGI)是一个要命的事,AGI的严格定义是完全超越人类的智能。我们要不要去实现?应不应该把它当成一个目标去做?都值得讨论。全社会要从重大风险的角度去考虑问题,不能仅仅把它当成更先进技术去追求。

  4月28日,中共中央政治局会议明确指出,“要重视通用人工智能发展,营造创新生态,重视防范风险。”AGI风险是全人类从未遇到的巨大风险挑战,意味着人类要把世界的控制权交出去,人类根本没做好准备,现在却成了个人和企业竞相追逐的梦想,必须高度警惕。

  谈争议

  大模型达到人脑级别的涌现,2045年左右是临界点

  贝壳财经:数据安全和隐私保护也是面对人工智能大潮非常值得关注的问题,在建立健全关键信息基础设施安全、算法安全、数据安全、个人信息保护等方面,有哪些建议?

  黄铁军应该说没有数据就没有智能,所以数据是源头,用好数据、管好数据,人工智能才能健康发展。这个过程中,隐私当然是最重要的问题之一,必须高度重视。

  两者之间如何管控?目前大家基本做法都是尽可能把隐私数据脱敏训练大模型,但即便如此,也可能存在漏网之鱼。如果出现这种问题,对于企业发展就是致命的,所以应该说再怎么重视都是应该的。

  贝壳财经:生成式人工智能、大模型等最近也引发了一些版权争议,尤其在图片领域,针对生成式人工智能、大模型等的版权保护,有哪些看法?

  黄铁军:绘画工作确实有一部分被替换了,但真正有创意不能被完全替代,原画师还有存在价值。传统版权法主要关注对作品的复制分发行为。把不同要素组合创作出一个新作品,并不违反传统版权法。

  我是偏向应该鼓励AIGC(生成式人工智能)发展,形成了一定的产业和气候后,探索创新模式上去回馈原创者,就像现在网络小说作者也得到了不错的回报,生态就形成了。

  鼓励AIGC发展,同时支持更多原创,两者不是简单的对立关系,可以协同发展。

  贝壳财经:人类还有哪些不能被替代?

  黄铁军:目前大模型智力和人类智力有差别,它在某些方面强,但在一些方面不强。譬如人类通常说的灵感,做出原创的科学技术突破能力,以及人脑和神经系统信号的表达和处理机制还是独特的。

  大模型背后是人工神经网络系统,靠海量数据得到一定的智力,优势在于处理数据的规模和速度,毕竟人能获取的数据量有限,大模型凭借独特优势可以超出人的能力,有超越人类的可能。

  贝壳财经:你曾提到,未来智能载体有望像生物大脑一样涌现更强智能,需要多少年实现?对人类将有什么影响?

  黄铁军:大模型已经有涌现能力了,涌现是自然界一个普遍现象。当一个系统单元数量达到一定规模,相互作用,就会产生涌现的现象。人脑是这样,大模型现在也类似,我十年前预测,人工智能系统逼近到人脑并实现类似的智力涌现,需要30年左右的时间,也就2045年左右,能够达到临界点。

  谈展望

  目前对人工智能风险的重视和投入还是不足

  贝壳财经:有观点认为,AIGC的大模型产品是在海量的数据中“思考”并生成内容,能够起到基础的辅助作用,并不能给予突破性的创新服务。若AI提供让灵长类动物感到有压力的、一些更聪明的服务,需要多久?

  黄铁军:大模型的智能水平主要取决于数据规模、丰富程度。大模型背后技术体系会不断改进,相比之下更高质量、更大规模的数据,能够发挥更大作用。目前大模型企业需要先活下来,满足用户服务,有一定收入,才能迭代往前发展,智力水平肯定会逐渐提高。

  大家一定要把大模型看成社会经济发展新阶段的标志,是全局性的大事,而不只是几大大模型企业。就像电力时代,需要电器企业、发电机企业等各种不同角色共建。我想传达最重要的信息就是智力时代来了,大模型会像19世纪的电力革命一样,后边会有很多机会。

  贝壳财经:你脑海中的人工智能大模型时代的“生活图景”是何种景象?需要多少年可以落地应用?大模型创业还有可能出现哪些形态?

  黄铁军:今天社会经济的运行,人的智力是最核心的要素。未来一些人的智力逐步被人工智能所取代。随着替代比例越来越高,社会经济运行效率就会越来越高。大家可能失业,但失业的人可能又会在新循环中找到新岗位,这是整个社会发展的一次大提升。效率提高之后,原来很多问题可能就解决了。

  人工智能或可以与工业革命、电力革命相提并论,如果只说第四次革命还是低估了它的影响。工业革命替代人的体力,这次是替代人的智力。往好的方面看,经济社会会有一个重大红利期,生活更便捷,物质、精神层面都得到了更好满足。

  与此同时,风险或者挑战也更大了。简单地说,越来越多的智力任务交给人工智能系统运行,而且是交给为数不多的几个智能系统,智力替代级别越来越高,人类主导权也越来越低,某种意义上人的智力在不断退后,最终是交出控制权的风险越来越大。

  贝壳财经:对大模型的未来世界有什么展望?人类与AI的关系会走向何方?

  黄铁军:大模型的社会关注度这么高,投入这么多,肯定会高速发展,发展速度会超出很多人的预期。经济社会效益也会快速增长,这是乐观的一面。与此同时,人工智能与人类社会关系越来越密切,人越来越多的智力活动被AI所替代,这是要保持警醒的另一面。

  我们当然希望人类长期更好地发展下去,不被AI所颠覆,探索出人机智能结合良性发展的道路。不过,人工智能发展水平提高的越来越快,潜在风险越来越大,目前对风险的重视和投入还是不足。

  

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多