分享

量子机器学习和数据的力量

 雨夜的博客 2022-02-22

视频介绍:量子机器学习和数据的力量

近年来,量子计算在理论和实践方面都取得了飞速发展,并有望在实际应用中产生潜在影响。一个关键的兴趣领域是量子计算机可能如何影响机器学习。我们最近通过实验证明,量子计算机能够自然地解决某些输入之间具有复杂相关性的问题,这对于传统或“经典”计算机来说是非常困难的。这表明,在量子计算机上构建的学习模型对于特定应用程序可能会更加强大,可能具有更快的计算速度、更好的泛化能力,或者两者兼而有之。因此,了解在什么情况下可以实现这种“量子优势”是非常有趣的。

量子优势的概念通常用计算优势来表述。也就是说,给定一些具有明确定义的输入和输出的任务,在可比的运行时间中,量子计算机能否获得比经典机器更准确的结果?有许多算法被怀疑量子计算机具有压倒性优势,例如用于分解大素数的乘积的Shor 分解算法(与RSA 加密相关)或量子系统的量子模拟。然而,解决问题的难度以及量子计算机的潜在优势可能会受到数据可用性的极大影响. 因此,理解量子计算机何时可以帮助机器学习任务不仅取决于任务,还取决于可用数据,对此的完整理解必须包括两者。

在Nature Communications发表的“数据在量子机器学习中的力量”中,我们剖析了机器学习中的量子优势问题,以更好地了解它何时适用。我们展示了问题的复杂性如何随着数据的可用性而正式变化,以及这有时如何能够提升经典学习模型以与量子算法竞争。然后,我们开发了一种实用的筛选方法,当在内核方法的上下文中选择的一组数据嵌入可能具有量子优势时. 我们使用筛选方法和学习边界的见解来介绍一种新方法,该方法将特征图的选择方面从量子计算机投影回经典空间。这使我们能够将经典机器学习的额外见解灌输给量子方法,这些见解显示了迄今为止量子学习优势的最佳经验分离。

数据

的计算能力量子优势优于经典计算机的想法通常是根据计算复杂性类别来构建的。诸如因式分解大数和模拟量子系统之类的例子被归类为有界量子多项式时间 (BQP) 问题,这些问题被认为量子计算机比经典系统更容易处理。在经典计算机上很容易解决的问题称为有界概率多项式 (BPP) 问题。

我们展示了配备来自量子过程的数据的学习算法,例如融合或化学反应等自然过程,形成了一类新的问题(我们称之为 BPP/Samp),它们可以有效地执行一些没有数据的传统算法无法完成的任务,并且是可以使用多项式大小的建议 (P/poly) 有效解决的问题的子类。这表明对于某些机器学习任务,理解量子优势也需要检查可用数据。

file

量子学习优势的几何测试

在得知优势的潜力会根据数据的可用性而变化的结果后,人们可能会问从业者如何快速评估他们的问题是否非常适合量子计算机。为了解决这个问题,我们开发了一个工作流来评估内核学习框架内的优势潜力。我们检查了许多测试,其中最强大和信息量最大的是我们开发的一种新颖的几何测试。 在量子机器学习方法中,例如量子神经网络或量子核方法,量子程序通常分为两部分,数据的量子嵌入(使用量子计算机的特征空间嵌入图)和评估应用于数据嵌入的函数。在量子计算的背景下,量子核方法利用传统的核方法,但使用量子计算机来评估量子嵌入上的部分或全部核,这与经典嵌入具有不同的几何形状。据推测,量子嵌入可能会带来量子优势,这可能比任何可访问的经典几何更适合特定问题。

我们开发了一个快速而严格的测试,可用于快速比较特定的量子嵌入、内核和数据集与一系列经典内核,并评估是否有任何机会获得量子优势,例如可能的标签函数,例如用于图像识别任务。我们定义了一个几何常数g,它根据几何测试量化理论上可以缩小该差距的数据量。这是一种非常有用的技术,可以根据数据约束来决定量子解决方案是否适合给定的问题。

投影量子核方法

几何测试揭示的一个见解是,现有的量子核经常受到一种易于经典化的几何结构的影响,因为它们鼓励记忆,而不是理解。这激发了我们开发投影量子内核,其中量子嵌入被投影回经典表示。虽然这种表示仍然很难用经典计算机直接计算,但与完全停留在量子空间相比,它具有许多实际优势。

file

通过有选择地投影回经典空间,我们可以保留仍然难以经典模拟的量子几何方面,但现在开发距离函数要容易得多,因此开发内核,在适度变化方面表现更好输入比原始量子内核。此外,投影的量子内核有助于与经典开发的强大非线性内核(如平方指数)更好地集成,这在原生量子空间中更具挑战性。

与以前的方法相比,这种预测的量子内核具有许多优点,包括改进了描述现有嵌入的非线性函数的能力,减少了将内核从二次方处理为与数据点数量成线性关系所需的资源,以及在更大的尺寸下更好地泛化的能力。内核还有助于扩展几何g,这有助于确保量子优势的最大潜力。

数据集展示学习优势

几何测试量化了所有可能的标签函数的潜在优势,但实际上我们最感兴趣的是特定的标签函数。使用学习理论方法,我们还限制了特定任务的泛化误差,包括那些明确起源于量子的任务。由于量子计算机的优势依赖于它同时使用许多量子位的能力,但以前的方法在量子位数量上的扩展性很差,因此重要的是要验证相当大的量子位大小 (> 20 ) 的任务,以确保一种方法有潜力规模到实际问题。在我们的研究中,我们验证了多达 30 个量子位,这是由开源工具TensorFlow-Quantum启用的,能够扩展到千万亿次计算。

有趣的是,我们表明,当提供足够的数据时,许多自然量子问题,甚至高达 30 个量子位,都可以通过经典学习方法轻松处理。因此,一个结论是,即使对于一些看起来像量子的问题,由数据赋能的经典机器学习方法也可以与量子计算机的能力相匹敌。然而,将几何构造与投影量子核结合使用,我们能够构建一个数据集,该数据集展示了量子模型相对于经典模型的经验学习优势。因此,虽然在自然问题中找到这样的数据集仍然是一个悬而未决的问题,但我们能够展示标签函数的存在,在这种情况下。

file

对于这个问题,我们扩大了量子位 ( n )的数量,并将投影量子内核的预测精度与现有内核方法和我们数据集中最好的经典机器学习模型进行了比较。此外,从这些结果中得出的一个关键结论是,尽管我们展示了量子计算机具有优势的数据集的存在,但对于许多量子问题,经典学习方法仍然是最好的方法。在讨论学习问题中的量子优势时,了解数据如何影响给定问题是一个需要考虑的关键因素,这与传统的计算问题不一样。

结论

在考虑量子计算机辅助机器学习的能力时,我们已经表明数据的可用性从根本上改变了这个问题。在我们的工作中,我们开发了一套实用的工具来检查这些问题,并使用它们来开发一种新的投影量子核方法,该方法与现有方法相比具有许多优势。我们致力于迄今为止最大的数值演示,即 30 量子位,具有量子嵌入的潜在学习优势。虽然在现实世界应用程序上的完整计算优势还有待观察,但这项工作有助于为前进的道路奠定基础。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多