语意向量距离组件支持双表输入,两个输入桩分别为左侧的查询表和右侧的字典表,最终输出查询表对应在字典表的TopN距离和排序。

注意事项

使用语义向量距离(双表)组件时,您需要注意以下事宜:
  • 算法本质上是计算两个输入表的笛卡尔积距离并排序,因此建议数据量不超过千万样本。
  • 执行调优中预设置的资源较小,如果出现OOM等情况,则需要手动调大资源配置。
  • 使用Cosine距离计算时,由于Double计算存在数据误差,因此可能出现极小的负数情况,属于正常现象。

组件配置

语意向量距离组件支持双表输入,两个输入桩分别为左侧的查询表和右侧的字典表,如下面所示。语义向量距离您可以通过可视化方式,配置语义向量距离(双表)组件的参数,页面参数如下所示。
页签 参数 描述
字段设置 向量列 向量数值,需要将整个向量写在一个字段中,每个数值以空格分割,如下图所示。向量列示例
ID列 作为每一列的主键。
参数设置 距离计算方法 支持euclideancosine距离计算方法。
最终给出的相似度最大值的个数 取值为正整数。
执行调优 计算的核心数 计算使用的CPU Core数量,默认值为3。如果计算过程中出现OOM等情况,则适当增大计算的核心数每个核心的内存
每个核心的内存 每个CPU Core的内存大小,单位为MB,默认值为2046 MB。如果计算过程中出现OOM等情况,则适当增大计算的核心数每个核心的内存

组件输出

输出结果为查询表对应在字典表的TopN的距离和排序,如下图所示。语义向量距离输出