欢迎来到令人兴奋的 AI 应用世界!在这门课程中,你将学习到创建一个能够与用户互动、理解自然语言、处理音频输入,甚至分析图像的真正智能应用所需的技能和技术。 AI 工具和技术 你将获得使用几个知名 AI API 和技术的实际经验。这些行业领先的平台将作为我们 AI 应用的构建块。我们将使用的一些技术包括: OpenAI: 我们将深入探索 OpenAI 的 Chat Completion API,这是一个革命性的工具,允许我们的应用与用户进行自然而动态的对话。 Deepgram: 我们将利用 Deepgram 的语音识别 API 来转录音频文件,允许我们无缝地将音频分析集成到我们的应用中。 Replicate: 我们将了解 Replicate,这是开源 AI 中的一场变革。我们将使用它来利用一个名为 miniGPT 的图像分析模型,使我们的应用能够理解图像内容并智能地回答有关它们的问题。 Langchain: 我们将使用这项技术为我们的应用赋予一种独特的“记忆”。有了 Langchain,我们的应用将能够记住以前的互动,并根据积累的知识智能地做出回应。 我们将构建什么? 现在,我们对将要学习的迷人 AI 技术感到兴奋,让我们来看一下我们将要构建的内容。 这是一个我们可以用于分析内容 - 文本、音频或图像的应用。 对于我们的文本分析功能,我们选取一段文本,然后向 AI 提问,得到回应。 它由几个主要元素组成: 一个文本区域来添加我们的文本 一个输入框和按钮来提交问题 一个 div 来展示 AI 的回应。 对于我们的音频分析功能,我们将音频文件转录为文本。当我们有转录文本时,我们可以向 AI 提问。首先将其转录为文本,让我们可以使用相同的 AI 进行文本分析 - AI 以文本形式分析音频。 这个功能由 Transcriber 组件和一个与文本分析功能中的聊天窗口类似的窗口组成。 我们还将添加功能,以便我们可以向 AI 提出多个问题,以便我们可以继续向其询问有关音频文件的问题。 最后,我们将构建图像分析功能。对于这个功能,我们将添加一个图像 URL 到输入中。然后我们可以向 AI 提问有关图像的问题。 我们将添加功能,以便我们能够提出多个问题。我们将赋予我们的 AI 记忆,以便它可以记住以前的问题和答案,保留整个对话的上下文! 课程内容大纲: 课程介绍 OpenAI 的聊天 API 分析文本功能 字符串的标记化 使用 Deepgram 的语音转文字 API 进行音频转录 分析音频功能 LangChain 介绍 分析图像功能 Langchain 和 Replicate 本资料可以在【AIGC部落】下载,扫描下方二维码即可加入【AIGC部落】: |
|