分享

毁灭人类计划的OpenAI神秘“Q*”究竟是什么?详细解密

 独角戏jlahw6jw 2023-11-29 发布于江西

虽然奥特曼回归OpenAI CEO了,OpenAI CEO的宫斗大戏基本上完结了,但是有许多未解的谜题,现在需要我来给大家说说这个谜底——OpenAI神秘“Q*”

首先我们来说说OpenAI的山姆奥特曼为什么会被他们内部解雇。之前网上各种猜测,大家也是云里雾里。

董事会在奥特曼被解雇的第4天收到了一封信,内容大致是警告强大的AI发现(Q*)可能会威胁我们人类,希望我们董事会能重视。

董事会在收到信的警告后,研究发现神秘“Q*”确实是会对人类造成严重威胁,所以最终解雇山姆奥特曼。在Q*项目被曝几天后,各大媒体的热度不断持续上升,甚至席卷整个AI大咖们的深入讨论。

毁灭人类计划的OpenAI神秘“Q*”究竟是什么?详细解密

Q*假说很可能和世界模型有关!

如果基础数学能力或意味着与人类智能相媲美的推理能力,也就是相当于奥特曼们朝着OpenAI设定的AGI通用人工智能目标迈出大跨越。

那么神秘“Q*”到底是什么?

神秘“Q*”是一种超级通用人工智能(AIGC),它会极限提升人工智能的计算速度,并且可以加速OpenAI进化速度,让Open AI进化成一个可以威胁人类的AI工具。大家还记得之前山姆奥特曼提到过关于ChatGPT可能已经有了意识了吗?然后慢慢使用世界大模型研发出具身智能体,想想都是非常可怕的。

大家还记得月初山姆奥特曼说的这段话吗?

“在OpenAI的历史上,我们已经取得了4次突破,最近一次是在过去的几周里。当我们把无知的面纱撕下,把发现的前沿向前推进时,我就在房间里。”

里面提到的第四次突破是什么?答案油然而生……现在是几乎所有顶级实验室都在Q*这方面进行研究,而这是整个规划领域的尝试,也暗示着什么?

以下正式解释下什么是神秘“Q*”

Q star star是机器学习算法Q-Learning(Q学习)的同义,然后OpenAI可以在Q的算法打造的新模型,所以起名本项目名称为Q。这个Q是贝尔曼方程中的最优值函数,可以在最短的时间内找到算法的最优解,从而挺好运算效率。在强化学习中,Q代表了一种重要的方法论。

毁灭人类计划的OpenAI神秘“Q*”究竟是什么?详细解密

也有专业人士解释道“Q学习是一种基于贝尔曼方程的强化学习算法,它通过智能体与环境交互来学习最优策略。智能体记录每个动作带来的奖励和新的状态,并使用这些数据来更新其Q值表。在更新Q值时,智能体考虑当前状态和动作的奖励以及下一个状态的预期奖励,从而计算新的Q值。这种方式使得Q学习能够在探索和利用之间找到平衡,从而在未知环境中找到最优策略。Q学习可以应用于具有连续状态和动作空间的问题,并且不需要知道环境的精确模型。”

经过以上解释,大家是不是对Q已经有点小小的认识了?

毁灭人类计划的OpenAI神秘“Q*”究竟是什么?详细解密

贝尔曼方程

我们伟大的数学家数学家理查德·贝尔曼利用此规划方程,来解答无论复杂多阶的问题,都能得到最优值函数最大化随时间累积的奖励。

我本人是做算法的,例如我可以输入一个类似于购物的目标函数,假如我去西藏9个月,买车的成本或者租车的成本,以及时间成本,包括效率等,然后这个算法按照最优的方案给到您,让您达到最优的结果预期。

毁灭人类计划的OpenAI神秘“Q*”究竟是什么?详细解密

有一个什么AI大佬给了一篇论文 文章链接:
https://www./p/q-st

思维树(Tree of Thought,ToT)是一种启发式搜索算法,是弥补现有大模型在解决问题时的缺陷用的算法。ToT是允许模型探索多种思想推理路径,然后将问题看作是在一棵树上的搜索。每个节点代表一个状态,包括输入的部分解决方案和截至目前为止的思想序列。

ToT包含四个关键过程:

将中间过程分解为思考步骤:ToT利用问题属性来设计和分解中间思想步骤,而CoT则在没有明确分解的情况下连贯地对思想进行采样。

从每个状态产生潜在的思维:有两种方法,分别是取样和提议。取样适用于思维空间丰富的情况,而提议适用于思想空间比较受限的情况。

启发式地评估状态:通过估值和投票来评估每个状态的重要性或优越性。

选择适当的搜索算法:BFS、DFS、A*或MCTS等搜索算法都可以被使用来寻找最优解。

⑤ 思维树对于解决复杂问题、优化决策过程以及提高人工智能系统的效率和准确性都具有重要的意义。

毁灭人类计划的OpenAI神秘“Q*”究竟是什么?详细解密

尽管GPT-4等大型语言模型在处理许多任务时表现出色,但面对更复杂的任务,ToT具有独特的优势。ToT提供了一种框架,使模型能够更自主、智能地进行决策和解决问题。这也带来了一些潜在的风险。通过提高模型决策的可解释性以及与人类对齐的可能性,ToT可以增强模型的可信度和可靠性。此外,由于中间生成的表征是以可读的、高层次的语言推理形式呈现的,而不是隐含的、低层次的数据,这使得模型更容易被人类理解和解释。

经典的解决问题方法转化为适用于当代大模型的实用方法是未来一个令人期待的方向。通过结合ToT等启发式搜索算法和大型语言模型的优点,我们有望开发出更高效、自主和可解释的AI系统,以更好地解决复杂问题和任务。

毁灭人类计划的OpenAI神秘“Q*”究竟是什么?详细解密

AI开始发明东西,破解互联网上的一切加密,写出以人类的数学能力理解不了的程序...(多位网友的感叹)

不过,理性地想,AGI的诞生大概率不会这么快。Q*可能只是人类以后漫长探索征程的开始。

也许类似于从AlphaGo进化到AlphaZero,真正的AGI可能整个训练过程都不需要人类的数据,而是完全从零开始,使用它自己的逻辑构建出整个世界。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多