AI超越数学家攻克经典数学难题；非侵入式设备解码大脑思维

追问Daily | AI超越数学家，攻克经典数学难题；非侵入式设备解码大脑思维；投入一千万美元，OpenAI启动超级对齐资助项目

单个神经元如何对语音进行大规模编码？

在Nature上发表的一项新研究，揭示了人类大脑皮层深处单个神经元在处理语音声音时的功能。研究团队利用高密度Neuropixels阵列记录了参与者听语音句子时，高级听觉区域（即颞上回）的685个神经元在9个皮层各层的活动。研究结果显示，单个神经元能编码各种语音声音线索，包括辅音和元音的特征、相对声调、起始音、振幅包络和序列统计等。在空间上，相似皮层深度的神经元倾向于编码相似的语音特征。

#神经科学 #语音感知 #大脑皮层

阅读论文：

Leonard, M. K., Gwilliams, L., Sellers, K. K., Chung, J. E., Xu, D., Mischler, G., Mesgarani, N., Welkenhuysen, M., Dutta, B., & Chang, E. F. (2023). Large-scale single-neuron speech sound encoding across the depth of human cortex. Nature, 1–10. https:///10.1038/s41586-023-06839-2

解锁大脑空间感知机制，压后皮层的自我中心编码

近期，中国科学院深圳先进技术研究院的研究人员及其合作者，利用双光子显微镜技术，在一项开放场导航任务中发现，压后皮层（retrosplenial cortex ，RSC）的树突、棘突和细胞体中的自我中心环境边界调谐。研究结果揭示了树突中具有显著个体中心调谐的功能性聚类，表明存在专门处理关于边界的个体中心信息的通道，可能通过个体中心边界细胞实现。此外，他们还发现，代表边界的细胞与代表视觉地标的细胞大体上是独立的。该研究发表在Neuron上。

#空间导航 #记忆 #神经机制

阅读论文：

Cheng, N., Dong, Q., Zhang, Z., Wang, L., Chen, X., & Wang, C. (2023). Egocentric processing of items in spines, dendrites, and somas in the retrosplenial cortex. Neuron, 0(0). https:///10.1016/j.neuron.2023.11.018

全球多队列研究绘制婴幼儿期大脑发育图

一项全球多队列研究分析了超过2000名婴幼儿的神经影像数据，揭示了从出生至6岁期间颅内和皮层下脑结构的发育轨迹。研究发现，社会经济因素和不良出生结果（如早产和出生体重较低），对大脑结构和认知功能的影响具有区域特异性和时期特定性。研究结果表明，性别、出生结果和社会经济地位对大脑发育轨迹有显著影响。研究成果发表在Nature Neuroscience上。

#婴幼儿大脑发育 #认知发展

阅读论文：

Alex, A. M., Aguate, F., Botteron, K., Buss, C., Chong, Y.-S., Dager, S. R., Donald, K. A., Entringer, S., Fair, D. A., Fortier, M. V., Gaab, N., Gilmore, J. H., Girault, J. B., Graham, A. M., Groenewold, N. A., Hazlett, H., Lin, W., Meaney, M. J., Piven, J., … Knickmeyer, R. C. (2023). A global multicohort study to map subcortical brain development and cognition in infancy and early childhood. Nature Neuroscience, 1–11. https:///10.1038/s41593-023-01501-6

非侵入式设备，将大脑思维转换为文本

悉尼科技大学的研究人员开发出了一种便携、非侵入式系统，能够解码无声思维并将其转换成文本。在这项研究中，参与者戴着一顶帽子默读文本段落，这顶帽子可使用脑电图记录通过头皮的脑电活动。脑电波被分割成不同的单元，由名为DeWave的人工智能模型从人脑中捕捉特定的特征和模式。DeWave收集大量的脑电数据，将脑电图信号转换成连贯的单词和句子。目前BLEU-1的翻译准确率在40%左右。上述研究已被选为NeurIPS会议的焦点论文。

#人工智能 #脑电波 #沟通技术

科技界

英特尔推出Core Ultra处理器，为下一代笔记本电脑提供AI加持

英特尔在该公司举行的AI Everywhere活动期间宣布推出一系列AI新品，包括面向企业的第五代至强（Xeon）处理器，以及面向个人电脑的酷睿（Core） Ultra芯片。这一系列产品首次搭载了神经处理单元（NPU）。新的Core Ultra处理器引入了多重重要架构特性，包括多芯片模块（MCM）设计、集成的新Intel Arc GPU和新型低功耗效率核心。

同时，英特尔CEO Pat Gelsinger首次公开介绍第三代英特尔AI加速器Gaudi 3，它用于深度学习和大型生成式AI模型。英特尔计划明年发布Gaudi 3，称Gaudi 3的性能将优于英伟达的主打AI芯片H100。【techradar】

#Intel #CoreUltra #NeuralProcessingUnit #PatGelsinger

阅读链接：

https://www.microsoft.com/en-us/research/publication/can-generalist-foundation-models-outcompete-special-purpose-tuning-case-study-in-medicine/

Stability AI发布Stable Zero123：开源图片生成3D模型，效率提升30倍

Stability AI推出Stable Zero123，这是一款基于单幅图像生成高质量3D对象的模型。Stable Zero123基于Stable Diffusion 1.5开发，与Zero1-to-3和Zero123-XL相比，由于改进的训练数据集和高度调节，展现了更出色的3D对象理解和视角生成能力。该模型推荐使用24GB VRAM，主要面向非商业和研究用途。通过三项关键创新：改进的训练数据集、估计的相机角度输入和预计算数据集，Stable Zero123在训练效率上相比Zero123-XL提升了40倍。【stability】

#Stability AI #Stable Zero123 #3D对象生成

OpenAI宣布投入1000万美元“超级对齐快速资助”，以推进人工智能安全研究

OpenAI近日与谷歌前CEO Eric Schmidt合作启动了一项名为“超级对齐快速资助”的新项目，旨在投入1000万美元支持对超人类AI系统对齐和安全的技术研究。该基金旨在解决超人类AI系统在弱到强泛化、可解释性、可扩展监督等方面的技术挑战。该项目鼓励学术实验室、非营利组织和个人研究人员申请，提供10万至200万美元的研究基金，并设有面向研究生的，为期一年、总值15万美元的OpenAI超级对齐奖学金。此项举措意在聚集全球顶尖研究者和工程师，共同应对AI安全的关键挑战。【OpenAI】

#OpenAI #超级对齐快速基金 #AI安全

模拟整个人脑的超级计算机DeepSouth，将于2024年启动

澳大利亚悉尼的国际神经形态系统中心（ICNS）正在与全球两大计算机技术制造商合作，建造一个名为DeepSouth的超级计算机。这台超级计算机预计于2024年启动，能够进行每秒228万亿次突触操作，这与人脑估计的操作数量相当。DeepSouth的目的是帮助我们理解大脑如何在消耗相对较少的能量下处理大量信息。【newscientist】

#DeepSouth #超级计算机 #人脑模拟

Hugging Face携手AMD，实现AI大模型在AMD GPU上的即插即用

Hugging Face近期宣布与AMD合作，旨在加速AI大模型的运算效能。该合作将使Hugging Face社区能够在AMD硬件上无需代码更改地运行最新AI模型，实现最佳性能。AMD的最新服务器GPU，Instinct™ MI300系列加速器，即将普及应用。合作成果包括支持Transformers模型在AMD Instinct GPUs上运行，以及开发面向其他AMD GPU的即插即用支持。此外，该合作还致力于提供AMD GPU最新创新功能的整合支持，并在持续集成和开发流程中为AMD Instinct GPUs提供维护支持。【huggingface】

#HuggingFace #AMD #AI大模型 #GPU加速

阿里巴巴推出创新虚拟试衣技术Outfit Anyone，线上试衣即将到来？

阿里巴巴近日发布了一项名为“Outfit Anyone”的革新性虚拟试衣技术。这项技术能够生成极为逼真的效果，让用户在电脑上看到自己穿上各种服装的样子，仿佛真的穿上了那些衣服。它不仅适用于所有类型的衣物和人物，还能完美适配不同的体型，为各种身材的人提供试衣效果。此外，这项技术还展示了个性化的时尚搭配，并且具有强大的泛化能力，甚至能够支持动画角色的新服装形象创建。特别地，“Outfit Anyone”还能显着增强服装的质感和真实感，同时保持服装风格的一致性。“Outfit Anyone”与“Animate Anyone”（图像动作视频模型）的集成，实现了角色服装的变换和动态视频生成。【Github】

#阿里巴巴 #OutfitAnyone #虚拟试衣技术 #AnimateAnyone

项目地址：

https://humanaigc./outfit-anyone/

AI与数据模型

FunSearch击败数学家，攻克经典数学难题

Google DeepMind的研究团队开发了名为FunSearch的方法，用于利用大语言模型（LLMs）在数学和计算机科学中寻找新解决方案。FunSearch结合了预训练的LLM和自动“评估器”，通过迭代进化，将初始解决方案转化为新知识。该系统首次在科学和数学的开放问题中实现了新的发现，例如在数学的cap set问题和计算机科学的bin-packing问题中取得进展。FunSearch通过生成短程序来找到数学问题的新解决方案，并能迅速检验这些解决方案是否优于已知解。该技术不仅创新，而且效果超过现有方法。研究成果已发表在Nature上。

#大型语言模型 #FunSearch #数学科学 #计算机科学

阅读论文：

Romera-Paredes, B., Barekatain, M., Novikov, A., Balog, M., Kumar, M. P., Dupont, E., Ruiz, F. J. R., Ellenberg, J. S., Wang, P., Fawzi, O., Kohli, P., & Fawzi, A. (2023). Mathematical discoveries from program search with large language models. Nature, 1–3. https:///10.1038/s41586-023-06924-6

Dolphins视觉-语言模型，模拟人类驾驶能力，处理复杂驾驶场景

由威斯康星大学麦迪逊分校、NVIDIA、密歇根大学和斯坦福大学的研究团队共同开发的Dolphins项目，旨在模拟人类驾驶能力，通过理解和处理视频、文字指令及驾驶信号来分析和预测复杂驾驶场景。Dolphins能够识别城市交叉路口、夜间交通等环境，预测车辆行为，并规划未来动作。此外，该模型展现了类似人类的学习和适应能力，包括即时学习、适应、通过上下文学习的反思和错误恢复。Dolphins基于开源的视觉-语言模型OpenFlamingo构建，并利用BDD-X数据集及GCoT过程来增强其推理能力。

#自动驾驶 #视觉语言模型 #人类驾驶模拟

阅读论文：

Ma, Y., Cao, Y., Sun, J., Pavone, M., & Xiao, C. (2023). Dolphins: Multimodal Language Model for Driving (arXiv:2312.00438). arXiv. https:///10.48550/arXiv.2312.00438

项目地址：

https://vlm-driver./

新容错算法，实现大型语言模型的高效推理和微调

最新的研究介绍了一种新的容错算法，用于大型语言模型的推理和微调。这一算法通过PETALS系统实现，可在不稳定的网络环境下高效运行，支持分布式和地理分散的设备。研究显示，即使在设备频繁断开连接的情况下，该系统仍能保持高性能。这一系统尤其适用于BLOOM（176B）和Llama 2（70B）等大模型，能够比本地推理快10倍。

#大型语言模型 #容错算法 #分布式推理 #微调

阅读论文：

Borzunov, A., Ryabinin, M., Chumachenko, A., Baranchuk, D., Dettmers, T., Belkada, Y., Samygin, P., & Raffel, C. (2023). Distributed Inference and Fine-tuning of Large Language Models Over The Internet (arXiv:2312.08361). arXiv. http:///abs/2312.08361