MyScale(打开新窗口) 引入了 嵌入文本函数 (打开新窗口)最新版本的集成 SQL 矢量数据库。这一强大的功能融合了 SQL 查询的效率和最先进的 AI 驱动的文本嵌入技术,让您可以使用熟悉的 SQL 语法进行精确的文本匹配和高效的语义相似度计算。

完全集成 Jina Embeddings v2 (打开新窗口)模型,MyScale EmbedText 允许用户利用 MyScale 中 Jina AI 的功能,使用标准 SQL 语法处理输入长度高达 8K 的文本,这使得理解和处理比以往更长的文本成为可能。无论是处理复杂的多语言数据还是创建高级人工智能应用程序,开发人员都可以在开发过程的每个阶段通过 MyScale 立即利用 Jina AI 的顶级嵌入模型。

什么是 MyScale?

MyScale 是一个云原生 SQL 矢量数据库,使熟悉 SQL 的开发人员能够构建生产质量的生成式 AI 应用程序。构建于 ClickHouse (打开一个新窗口< /span>,MyScale将矢量搜索和存储与可扩展的关系数据库集成在一起,提供结构化和非结构化数据的高效存储和处理,简化复杂的数据库工程,同时确保人工智能应用程序的最高可靠性和性能。

MyScale 的EmbedText 函数利用熟悉的 SQL 语法来简化文本嵌入向量的生成,使用户能够在其项目中采用流行的 AI 模型。使用 EmbedText 的自动批处理,开发人员可以极大地提高处理大量数据的性能,而无需依赖外部工具或进行任何复杂的编程。

什么是 Jina 嵌入?

Jina Embeddings v2 是世界上第一个也是迄今为止唯一一个支持 8192 令牌输入大小的开源文本嵌入模型。它提供三个版本: 仅限英语 (打开新窗口),双语汉英< span> (打开新窗口),以及双语德语-英语  (打开新窗口

特点:

  • 行业领先的性能可与 OpenAI 的闭源 Ada 2 模型相媲美。
  • 支持超过 8000 个标记的文本,打破了长文本向量表示的障碍,让开发者能够在多个尺度上充分表示文本的语义。
  • 多语言支持,一种模型在一个嵌入空间中代表中文和英语,另一种模型则代表德语和英语,并且未来还会支持更多语言。 Jina Emebddings 使用专门针对特定语言的模型来支持跨语言应用程序,而不是使用针对大量不同语言的性能不平等且不明确的大规模、低效的 AI 模型。
  • 排名依据LlamaIndex (打开新窗口) 跻身全球最佳 RAG(检索增强生成)应用嵌入模型之列。

在 MyScale 中使用 Jina Embeddings v2

开发者可以使用 Jina Embeddings 和 MyScale 中的 EmbedText Function 进行两种操作:数据插入和基于嵌入的查询。本节将详细介绍两者。

创建简化函数

一种实用的策略是声明一个 SQL 用户定义函数 (UDF),该函数创建文本嵌入并包含相关模型名称、提供程序和 API 密钥,这样这些信息就不必重复并且可以轻松更改当需要时。

下面的 SQL 语句为此目的声明了函数 JinaAIEmbedText。在适当的位置插入您自己的 API 密钥。

SQL

 

在集群“{cluster}”上创建函数 JinaAIEmbedText AS (x) -> EmbedText(x, 'Jina', '', 'YOUR_API_KEY', '{"model":"jina-embeddings-v2-base-en"}')

现在,要获得文本的嵌入,您只需调用JinaAIEmbedText

SQL

 

SELECT JinaAIEmbedText('YOUR_TEXT')

使用 Jina 嵌入优化矢量搜索

创建简化函数后,您可以使用 MyScale 中的 Jina Embeddings 来优化矢量搜索。使用嵌入进行查询遵循标准 SQL 方法。使用 JinaAIEmbedText 非常简单:

SQL

 

SELECT id, distance(vector_column_name, JinaAIEmbedText('YOUR_QUERY_TEXT')) AS dist
FROM table_name ORDER BY dist LIMIT 10

这将根据嵌入向量,用与您的查询最匹配的 10 条记录填充一个表。

数据插入

您可以使用上面的 JinaAIEmbedText 函数创建一个将文本数据转换为向量的 SQL 表。例如:

SQL

 

创建表 jina_embedding
(
  id UInt32,
  段落字符串,
  向量数组(Float32) DEFAULT JinaAIEmbedText(段落),
  约束 check_length 检查长度(向量)= 768
)
引擎 = 合并树
按 ID 排序

然后,将数据插入到该表中以自动生成嵌入:

SQL

 

INSERT INTO jina_embedding(id,段落)
VALUES (1, 'YOUR_TEXT_1'), (2, 'YOUR_TEXT_2')

人工智能开发者的好处

MyScale 与 Jina Embeddings v2 模型的集成为开发人员提供了一个强大的框架,用于构建数据库驱动的生成式 AI 应用程序,从而节省时间、精力和金钱,将新应用程序推向市场。

其具体优势包括:

  1. 降低计算成本:与竞争对手相比,MyScale 可提供卓越的数据库性能,显着降低内存消耗,使其成为支持 AI 应用程序的极具成本效益的选择。 Jina Embeddings 为开发人员提供了不同模型大小和嵌入向量大小之间的选择,为他们提供了管理计算和存储成本的工具。
  2. 增强灵活性:MyScale 和 Jina Embeddings 之间的协同作用为开发人员提供了增强的灵活性,特别是在长文档和大型文档集合等具有挑战性的应用场景中。
  3. 更准确的搜索:MyScale 通过其独特的 MSTG 算法 (打开新窗口),而 Jina Embeddings 提供了更精确的文本语义表示,提高了信息检索的准确性。这可以带来更明智的决策和卓越的应用性能,特别是在提高 RAG 应用的准确性方面。这两种技术的结合将搜索提升到了新的高度。

将 MyScale 与 Jina Embeddings 相结合开辟了实际应用,特别是对于 RAG 增强型聊天机器人。 MyScale 通过 Jina Embeddings 进行了增强,可以充当聊天机器人的单一数据源,确保数据安全性、一致性和完整性。 MyScale 还通过存储对记录的引用、提高可访问性并为您提供高级访问控制来减少数据冗余。

Jina Embeddings v2 处理长文本的能力使其成为管理对话系统输入的理想选择。使用 Jina Embeddings 制作的聊天机器人可以更好地理解对话上下文,从而显着提高长时间聊天和复杂场景中的性能。

展望未来

MyScale 和 Jina Embeddings v2 的深度集成使开发人员能够将人工智能引入他们的项目。这包括创建智能客户服务机器人、开发更准确的跨语言搜索应用程序以及优化法律和商业文档分析和管理流程。开发者可以通过MyScale和Jina Embeddings探索更广泛的应用场景,构建更多创新实用的AI应用,为用户提供更大价值。

Comments are closed.