过往,承担数据组织的是传统关系型数据库。但它更适合用来应对结构化的数据。 大模型和神经网络,更多面对的是海量的非结构化数据,比如文本、音频、视频、关系等。它们有一种专门的处理方式:“向量化”。想要按这种”脑回路“组织数据,需要一个专门的数据库——向量数据库。把复杂的非结构化数据通过向量化(embedding),处理统一成多维空间里的坐标值,通过计算向量之间的相似度或距离,快速定位最相关的近似值。
为什么使用向量数据库
向量数据库被广泛地用于大模型训练、推理和知识库补充等场景。简而言之,如果大模型是一个智能的处理器,那向量数据库就是配合这台处理器的”外置缓存”。
支撑训练阶段海量数据的分类、去重和清洗,给大模型的训练降本增效。
通过新数据的带入,帮助大模型提升处理新问题的能力,突破预训练带来的知识时间限制,避免大模型出现幻觉。
提供一种私有数据连接大模型的方式,解决私有数据注入大模型带来的安全和隐私问题,加速大模型在产业落地。
向量数据库的优势
生产级别的向量嵌入搜索支持
⽆论是 RDS pgvector 还是 Amazon OpenSearch Service,都⽀持近乎实时地添加、更新和删除向量嵌⼊,不会影响查询性能或重新索引数据。
提高开发人员生产力
向量数据库⽀持将向量和⽂本搜索放在⼀起,以便在⼀次调⽤中轻松查询嵌⼊、元数据和描述性⽂本,从⽽提⾼搜索准确性并降低系统复杂性。
可扩展性和效率
最新推出的 Vector Engine for Amazon OpenSearch Serverless (Preview) 具有简单、可扩展且⾼性能的向量存储和相似性搜索的强⼤的⽣成⼈⼯智能应⽤程序。通过⾼性能且易于使⽤的⽆服务器环境的简单性,在⼏毫秒内存储和搜索数⼗亿个具有数千个维度的向量嵌⼊。
向量数据库的应用场景
图像和视频处理
在图像和视频处理场景中,需要处理大量的图像和视频数据,其中图像和视频数据往往是由向量表示的。向量数据库可以用于存储和管理图像和视频特征向量数据,并使用向量相似度算法来实现高效的图像和视频处理。
自然语言处理
在自然语言处理场景中,需要处理大量的文本数据,其中文本数据往往是由向量表示的。向量数据库可以用于存储和管理文本向量数据,并使用向量相似度算法来实现高效的自然语言处理。
推荐系统
在推荐系统场景中,需要处理大量的用户行为数据和商品特征数据,其中商品特征数据往往是由向量表示的。向量数据库可以用于存储和管理商品特征向量数据,预测客户的需求并提供适合他们兴趣的个性化体验。
搜索引擎
在搜索引擎场景中,需要处理大量的文本数据,并将文本数据映射到向量空间中进行搜索。向量数据库可以用于存储和管理文本向量数据,并使用向量相似度算法来实现高效的搜索。
人脸识别和身份验证
在人脸识别和身份验证场景中,需要处理大量的人脸数据,并将人脸数据映射到向量空间中进行比对。向量数据库可以用于存储和管理人脸特征向量数据,并使用向量相似度算法来实现高效的人脸识别和身份验证。
基于“事实”的个性化聊天机器人
提供交互式响应和帮助,以更好地支持您的客户。
使用亚马逊云科技的云原生向量数据库进行构建
云原生搜索服务Amazon OpenSearch Service 向量引擎
OpenSearch 是一款灵活且可扩展的开源软件套件,用于搜索、分析、安全监控和可观测性应用程序。向量数据库通过提供 k-NN 索引等专门索引来提供有效的向量相似度搜索。它还提供其他数据库功能,例如管理向量数据以及其他数据类型、工作负载管理、访问控制等。 OpenSearch 的 k-NN 插件为 OpenSearch 提供了核心向量数据库功能,可通过查询向量嵌入,可以在几毫秒内获得数十亿向量的上下文相关响应,向量嵌入可以与单个混合请求中基于文本的关键字组合。https://www.amazonaws.cn/en/newsroom/2023/global-0801-opensearch/
托管数据库服务的向量扩展 – Amazon Relational Database Service(Amazon RDS)for PostgreSQL
支持 pgvector 扩展,用于将机器学习(ML)模型生成的嵌入内容存储在您的数据库中,并执行高效的相似性搜索。
https://aws.amazon.com/cn/rds/postgresql/
云原生数据库的向量检索扩展 – Amazon Aurora
Amazon Aurora PostgreSQL 兼容版现支持 pgvector 扩展,用于将来自机器学习 (ML) 模型的数字向量存储在您的数据库中并执行高效的相似性搜索,可将文本输入的语义含义捕获到大型语言模型 (LLM) 中。
https://aws.amazon.com/cn/about-aws/whats-new/2023/07/amazon-aurora-postgresql-pgvector-vector-storage-similarity-search/
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/302852.html