文档

系统内置基础特征

更新时间:

介绍定制化排序模型中用到的系统内置基础特征。

基础特征结构示意图

image.png

基础特征类型介绍

基础特征总体分为两大类:item和user

item:

  • 字段特征:首先选择需要处理的特征字段,默认支持当前应用下的所有字段。然后选择具体的处理方式,如对于文本类型可以选择分词、向量化等,对于数值类型,直接选择原值映射。如果需要的特征字段不在当前应用,还可以通过外部MaxCompute表的形式注册进来。

  • 统计特征:系统内部结合当前应用的搜索日志、行为采集进行统计,如item最近7天的曝光量、点击量、ctr等。

user:

  • user画像:用户画像特征如果需要可以通过外部表的形式接入训练,预测时通过query传递。(暂未启用)

  • query特征:即用户搜索的raw_query,一般用到query分词、向量化等信息。

item字段特征处理方式:

  • 原值

  • 分词

  • 分词后生成lookup特征

  • 分词后统计term数量

示例:

比如需要处理的字段内容为“白色T恤”,

原值结果为:“白色T恤”,

分词结果为:“白色^]T恤” (^]为多值分隔符),

分词后生成lookup特征为:“白色:白色^]T恤:T恤”,

分词后统计term数量为:2

系统内置item特征

字段名(特征名)

字段类型

字段说明

system_item_id

STRING

item id ,item的唯一标识

system_all_nid_ctr_30

BIGINT

item 30天点击率(已进行离散化)

system_all_nid_ctr_7

BIGINT

item 7天点击率(已进行离散化)

system_all_nid_ctr_1

BIGINT

item 1天点击率(已进行离散化)

system_all_nid_pv_30

BIGINT

item 30天曝光量(已进行离散化)

system_all_nid_pv_7

BIGINT

item 7天曝光量(已进行离散化)

system_all_nid_pv_1

BIGINT

item 1天曝光量(已进行离散化)

system_all_nid_ipv_30

BIGINT

item 30天点击量(已进行离散化)

system_all_nid_ipv_7

BIGINT

item 7天点击量(已进行离散化)

system_all_nid_ipv_1

BIGINT

item 1天点击量(已进行离散化)

system_query_score_decay

STRING

能表示该item的topN个query的点击比例分 (对于query,N默认为20,下同)

示例: 'query1:score1^]query2:score2'

system_qterm_score_decay

STRING

能表示该item的topN个query term的点击比例分(对于term,N默认为300,下同)

示例: 'term1:score1^]term2:score2'

system_query_ctr_decay

STRING

能表示该item的topN个query的ctr值

示例: 'query1:ctr1^]query2:ctr2'

system_qterm_ctr_decay

STRING

能表示该item的topN个query term的ctr值

示例: 'term1:ctr1^]term2:ctr2'

system_query_match_decay

STRING

请求query与能表示该item的topN个query的match值

示例: 'query1:query1^]query2:query2'

system_qterm_match_decay

STRING

请求query term与能表示该item的topN个query term的match值

示例: 'term1:term1^]term2:term2'

system_query_seq_decay

STRING

能表示该item的topN个query,多值id特征

示例: 'query1^]query2'

system_qterm_seq_decay

STRING

能表示该item的topN个query term,多值id特征

示例: 'term1^]term2'

system_query_cnt

BIGINT

system_query_seq_decay的个数

system_qterm_cnt

BIGINT

system_qterm_seq_decay的个数

dt

STRING

时间分区,格式 20230316,按天分区

系统内置user特征

系统内置user特征。

特征名

字段类型

特征说明

system_exp_time

STRING

行为产生的时间,单位为“周天”,例如“星期一”,“星期二”

system_terms2

STRING

query分词列表的前15个词的截断

system_user_id

STRING

user_id

system_raw_q_ultra

STRING

分词前的原始query

system_term_seq

STRING

query序列特征

system_term_seq_length

DOUBLE

query序列特征长度

  • 本页导读 (0)