亚马逊云科技-pgvector和GenAI Aurora

关键字: [yt, PG Vector, Pgvector Vector Embeddings, Generative Ai Aurora, Semantic Search Embeddings, Retrieval Augmented Generation, Amazon Bedrock Foundation Models]

本文字数: 400, 阅读完需: 2 分钟

导读

史蒂夫·迪利在亚马逊云科技的演讲中阐释了 PG Vector 如何助力 Aurora 数据库实现人工智能功能。他解释了这一 PostgreSQL 扩展如何允许在 Aurora 中存储和执行对文本、图像和其他数据嵌入的向量相似性搜索。具体而言,他阐明机器学习模型将数据表示为数学向量(嵌入),PG Vector 可以使用 SQL 存储和比较这些向量,而亚马逊云科技的服务如 Amazon Bedrock 和 SageMaker JumpStart 则提供了生成嵌入的模型。演讲重点关注了 PG Vector 和 Aurora 如何在零售领域实现视觉搜索、推荐系统,以及通过检索增强生成(RAG)实现语义搜索,将专有数据与大型语言模型相结合,并展示了一个聊天机器人应用程序的演示。

演讲精华

以下是小编为您整理的本次演讲的精华,共100字,阅读时间大约是0分钟。

在当今时代,人工智能(AI)技术的发展日新月异,亚马逊云科技(亚马逊云科技)也紧跟潮流,推出了一项名为PG Vector的新功能。PG Vector是一个PostgreSQL扩展,旨在帮助用户将生成式AI(GenAI)技术集成到Aurora数据库中。它的核心功能是存储向量并执行向量相似性搜索,这对于基于机器学习和基础模型的应用程序至关重要。

机器学习和基础模型将文本、图像或视频表示为数学向量,称为”嵌入”。这些嵌入可以被机器搜索和比较,从而实现诸如相似性搜索等功能。PG Vector使Aurora能够存储这些嵌入,并使用SQL在Aurora中已有的数据或存储在其他位置(如S3)的数据上进行比较。这使用户可以在不移动数据的情况下,在数据库中部署机器学习应用程序,同时保持习惯的安全性和控制。

嵌入是通过使用大型语言模型(LLM)将文本、图像或视频转换为数值表示形式而产生的。对于文本,LLM算法从句子中推导出单词的语义含义,并创建数字向量,其中相似的单词具有较小的距离,而不同的单词具有较大的距离。例如,与动物或飞机这些可移动的物体相比,城市这个词会有较大的距离。对于图像,每个手写数字首先被处理成28x28的灰度图像,然后像素化为二进制向量,长度为784。PG Vector可以使用欧几里得距离或余弦相似度等相似性度量来确定查询向量与存储向量之间的相似程度。

亚马逊云科技提供了多种服务来帮助用户生成嵌入,包括Amazon Bedrock和SageMaker JumpStart Marketplace。Bedrock提供了访问Amazon和领先AI公司(如AI21 Labs、Anthropic和Stability AI)的基础模型的能力,而JumpStart Marketplace则提供了第三方AI模型,包括免费的公共模型和付费的专有模型。

PG Vector和Aurora的一些常见用例包括:

  1. 零售业的视觉搜索:Amazon自2019年以来在某些市场推出的StyleSnap功能,就是利用嵌入相似性搜索来帮助客户找到与上传图片相似的产品。StyleSnap会持续为产品创建嵌入,当客户上传朋友服装的照片时,就会创建该照片的嵌入,并使用相似性搜索在目录中找到相似的款式,呈现给客户。
  2. 推荐系统:通过嵌入相似性搜索,可以为用户推荐与他们感兴趣的内容相似的产品或服务。例如,当用户在一家评论网站上找到一家受欢迎的塔可餐馆时,系统可以推荐一家距离更近的塔可餐馆,并显示该餐馆的一条赞不绝口的塔可评论。用户无需阅读所有30条评论,就可以快速获取关键信息。
  3. 语义搜索与检索增强生成(RAG):首先使用嵌入模型为要索引的内容创建向量嵌入,这些内容可以来自S3或其他存储库。然后将向量嵌入插入Aurora,并保留对原始内容的引用。当应用程序发出查询时,会使用相同的嵌入模型为查询创建嵌入,并使用PG Vector查询相似的向量嵌入。RAG允许用户从外部数据源检索数据,并将其添加到LLM的提示中,以生成更相关的答复。这种技术被称为”检索增强生成”。例如,当用户查询一家餐馆时,系统可以将相关的评论数据添加到LLM的提示中,生成对该餐馆的总结。
  4. Aurora ML:这是一个SageMaker连接器,允许用户使用SQL从Aurora调用LLM,并包含要添加到LLM知识库中的增强数据。Aurora ML提供了与SageMaker模型(尤其是包含LLM的模型)的连接,使用户可以编写SQL查询来组合数据库中的列并调用SageMaker端点。用户可以实时执行此操作,但建议预先存储摘要以获得最快的查询响应时间。

最后,进行了一个语义搜索与RAG聊天机器人的演示,该机器人可以从各种内容类型(如PDF文件、YouTube视频等)中创建嵌入,并回答相关问题。在演示中,上传了一个Amazon WorkDocs开发者指南的PDF文件,该指南大约有30页长。系统会为该文件创建嵌入。然后,可以询问”什么是Amazon WorkDocs?“等问题,系统会根据嵌入的内容给出”Amazon WorkDocs用于同步您的Mac和Windows桌面上的文件夹与您的Amazon WorkDocs文件”的相关回答。接下来,上传了一个关于云计算的YouTube视频链接,系统会从视频的音频中提取文本,并为其创建嵌入。询问”什么是云计算?“时,系统给出了”云计算是通过互联网按需交付IT资源”的精确回答。

通过这个演示,希望观众能够体会到LLM的强大功能,以及它们如何提高工作效率。总结而言,PG Vector使Aurora能够存储和搜索嵌入,从而支持基于GenAI的应用程序,如视觉搜索、推荐系统和语义搜索。通过与亚马逊云科技服务(如Bedrock、SageMaker和Aurora ML)的集成,用户可以轻松生成和利用嵌入,为应用程序增加AI功能,提高生产力。期待看到观众利用PG Vector构建创新的解决方案。

总结

在这个富有洞见的演讲中,亚马逊云科技的产品经理Steve Dilly深入探讨了PG Vector的能力。PG Vector是一个PostgreSQL扩展,可在Aurora数据库中实现向量相似性搜索。他首先解释了PG Vector如何存储和比较嵌入,这些嵌入是从机器学习模型中获得的文本、图像和其他数据类型的数学表示。

首先,Dilly阐明了嵌入的概念,说明了大型语言模型如何将文本和图像转换为数值向量,以捕捉语义含义。他举例说明了单词和句子嵌入如何编码语言细微差别,而图像嵌入则将视觉数据表示为像素化向量。

其次,他强调了PG Vector在实际应用中的作用,如零售中的视觉搜索、个性化推荐以及使用检索增强生成的语义搜索。检索增强生成能够利用数据库中的特定领域知识来增强基础模型的性能,从而更好地完成专门任务。

第三,Dilly介绍了Aurora ML,这是一个SageMaker连接器,可简化Aurora与大型语言模型和其他AI模型的集成。该功能允许将数据库数据与大型语言模型输出相结合,从而实现强大的应用程序,如聊天机器人和摘要生成。

总之,Dilly强调了PG Vector和Aurora ML在无缝集成机器学习能力到熟悉的数据库环境中的潜力,使开发人员能够利用生成式AI的力量,同时保持数据安全性和控制权,从而开启创新的AI驱动应用。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()