黄爸爸好的图书馆

他的首页他的馆藏他的动态馆友反馈关于他分享对话

黄爸爸好 IP属地：上海

文章		关注		粉丝		访问		贡献

关注

粉丝

访问

贡献

他的首页

他的馆藏

他的动态

馆友反馈

关于他

共 116 篇文章

显示摘要

每页显示

条

全新神经网络架构KAN一夜爆火！

全新神经网络架构KAN一夜爆火！比如，200个参数的KANs，就能复现DeepMind用30万参数的MLPs发现数学定理研究。跟MLP最大、也是最为直观的不同就是，MLP激活函数是在神经元上，而KAN把可学习的激活函数放在权重上。而从算法层面上看，MLPs 在神经元上具有（通常是固定的）激活函数，而 KANs 在权重上具有（可学习的）激活函数。在函数拟合方面，K...

阅290 转0 评0 公众公开 24-05-06 08:40

北大发现了一种特殊类型的注意力头！

研究人员发现了检索头具有一些重要和有趣的性质：通用性:所有具有长上下文能力的探索模型都有一组检索头;稀疏性:只有一小部分(小于5%)的注意头是检索头；因果关系:完全修剪检索头导致检索相关信息失败，产生幻觉，而修剪随机的非检索头不影响模型的检索能力。这个性质在同一个模型家族中也能体现出来，同一族模型的检索头是强相关的，即聊天模...

阅4 转0 评0 公众公开 24-04-28 13:47

超强！深度学习Top10算法！

from keras.models import Sequentialfrom keras.layers import LSTM, Densedef lstm_model(input_shape, num_classes):model = Sequential()model.add(LSTM(units=128, input_shape=input_shape)) # 添加一个LSTM层 model.add(Dense(units=num_classes, activation=''''''''softmax'''''...

阅6 转0 评0 公众公开 24-04-22 08:57

训练数据平衡时模型的不公平现象该如何解释？模型公平性的几何给出解决方案！

B 在Cifar-10，Cifar-100和SVHN三个样本数量平衡的数据集上训练13个不同的模型，并计算每个模型产生的感知流形的曲率与类准确率的相关性。然而，不带有曲率约束的优化目标足以解决曲率不平衡引起的模型偏差吗？作者在CIFAR-100和SVHN上训练了ResNet18和SeNet-34，并绘制类感知流形的曲率与类准确率的相关性随epoch的变化曲线。这表明现有模型在...

阅2 转0 评0 公众公开 24-04-20 07:22

“GPT推理能力为0，悬赏1万美元证明我错了”，程序员自信发帖广邀网友验证，却遭“打脸”！

“我怀疑 GPT 架构是否能够解决某些问题，毫无疑问，它解决了这些问题。这是否证明 GPT 可以治愈癌症？不。但它确实证明我错了！请注意，这仍然存在一个小问题：目前尚不清楚 Opus 是否基于原始 GPT 架构。毕竟，所有 GPT-4 版本都失败了。如果 Opus 被证明是一种新的架构......好吧，具有讽刺意味的是，这整件事本来可以证明我的全部观点但...

阅2 转0 评0 公众公开 24-04-09 05:58

《大型语言模型增强强化学习》综述

LLM增强RL范式：本文在整合LLM到RL范式的新兴领域中提出了第一个全面综述。因此，我们介绍了以下所谓的LLM增强RL的概念：LLM增强RL指的是利用预训练、内含知识的AI模型的多模态信息处理、生成、推理等能力来协助RL范式的方法。基于LLM在框架中的功能，我们提取LLM增强RL的特性，并进一步将LLM在LLM增强RL中的四种不同角色细分为信息处理器、奖...

阅2 转0 评0 公众公开 24-04-08 10:06

Python 被抛弃了，Hugging Face 选择 Rust 重写的 ML 框架，性能提升了不少。

Python 被抛弃了，Hugging Face 选择 Rust 重写的 ML 框架，性能提升了不少。今天一起来看机器学习框架 candle，是知名开源组组织 Hugging Face 使用 Rust 写的机器学习框架，还是非常不错。Candle 是由 Rust 语言编写的高性能机器学习库，主打就是优化性能和提升易用性，尤其在 GPU 支持方面。为了解决 Python 在性能和生产环境中的一些限制，...

阅9 转0 评0 公众公开 24-04-03 05:05

图解大模型计算加速系列之：vLLM核心技术PagedAttention原理

物理内存（physical KV blocks）可理解为操作系统中的物理内存，物理块在gpu显存上，每个block类比于虚拟内存中的一个page.分配逻辑块：对于A1，vLLM为其分配逻辑块block0和block1；首先，vLLM有一个中央调度器（Scheduler），它负责计算和管理每张卡上KV cache从逻辑块到物理块的映射表(block tables)在做分布式计算时，Schedular会将映射表广...

阅155 转0 评0 公众公开 24-03-31 06:49

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

本综述集中于从因果视角评估和改进LLMs，在以下几个方面：理解和提升LLMs的推理能力，解决LLMs中的公平性和安全性问题，为LLMs提供解释，以及处理多模态问题。在论文的前半部分，我们讨论了这些方法在LLM社区的各种问题中的应用：第4.1节概述了因果方法用于衡量和改进LLM的推理能力，第4.2节和第4.3节关注公平性和安全性问题，而第4.4节介绍了...

阅10 转0 评0 公众公开 24-03-27 07:31

中国科学院团队首篇LLM模型压缩综述：细聊剪枝、知识蒸馏、量化技术机器之心报道编辑：赵阳。随着 LLM 的突破性工作逐渐放缓，对于如何让更多人使用 LLM 成为时下热门的研究方向，模型压缩可能是 LLM 未来的一个出路。最近的研究工作致力于将 LLM 与剪枝技术相结合，旨在解决与 LLM 相关的大规模和计算成本。该技术将知识从被称为教师模型的复...

阅1 转自天承办公室公众公开 24-03-24 06:12

他的文章
他的书籍

筛选

不限类型

网文

撰写

文档

不限 Word PPT Excel RTF PDF TXT

思维导图

相册

音乐

视频

显示摘要不显示摘要

每页10条每页30条每页50条

返回
顶部