文档

预测学生考试成绩

更新时间:

Designer预置了逻辑回归算法模板,便于您基于中学生的家庭背景及在校行为,通过逻辑回归算法快速生成期末成绩预测模型,从而获得影响中学生学业的关键因素。本文为您介绍逻辑回归算法预置模板的具体使用方法。

背景信息

通过本工作流获得学生考试成绩预测模型后,您可以将需要预测的内容上传至MaxCompute表中,从而进行离线预测。

前提条件

数据集

本工作流的数据集由25个特征列和一个目标列组成,具体字段如下。

字段名

类型

描述

sex

STRING

性别。F表示女,M表示男。

address

STRING

住址。U表示城市,R表示乡村。

famsize

STRING

家庭成员数。LE3表示少于三人,GT3表示多于三人。

pstatus

STRING

是否与父母一起住。T表示与父母一起住,A表示与父母分开住。

medu

DOUBLE

母亲的文化水平,从0~4表示学历依次增高。

fedu

DOUBLE

父亲的文化水平,从0~4表示学历依次增高。

mjob

STRING

母亲的工作,包括教师相关、健康相关及服务业。

fjob

STRING

父亲的工作,包括教师相关、健康相关及服务业。

guardian

STRING

学生的监管人,包括motherfatherother

traveltime

DOUBLE

从家到学校需要的时间,单位为分钟。

studytime

DOUBLE

每周的学习时间,单位为小时。

failures

DOUBLE

挂科次数。

schoolsup

STRING

是否有额外的学习辅助,取值为yesno

fumsup

STRING

是否有家教,取值为yesno

paid

STRING

是否有相关考试学科的辅助,取值为yesno

activities

STRING

是否有课外兴趣班,取值为yesno

higher

STRING

是否有向上求学意愿,取值为yesno

internet

STRING

家里是否连网,取值为yesno

famrel

DOUBLE

家庭关系,从1~5表示关系从差到好。

freetime

DOUBLE

课余时间量,从1~5表示课余时间依次增多。

goout

DOUBLE

与朋友出去玩的频率,从1~5表示从少到多。

dalc

DOUBLE

日饮酒量,从1~5表示从少到多。

walc

DOUBLE

周饮酒量,从1~5表示从少到多。

health

DOUBLE

健康状况,从1~5表示状态从差到好。

absences

DOUBLE

出勤量,取值范围0次~93次。

g3

STRING

期末成绩,使用20分制表示。

工作流数据的示例如下。实验示例数据

预测学生考试成绩

  1. 进入Designer页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 可视化建模(Designer),进入Designer页面。

  2. 构建工作流。

    1. Designer页面,单击预置模板页签。

    2. 在模板列表的在线预测-中学生成绩预测区域,单击创建

    3. 新建工作流对话框,配置参数(可以全部使用默认参数)。

      其中:工作流数据存储配置为OSS Bucket路径,用于存储工作流运行中产出的临时数据和模型。

    4. 单击确定

      您需要等待大约十秒钟,工作流可以创建成功。

    5. 在工作流列表,双击在线预测-中学生成绩预测工作流,进入工作流。

    6. 系统根据预置的模板,自动构建工作流,如下图所示。

      预测成绩实验

      区域

      描述

      数据预处理。使用SQL脚本组件将文本数据结构化:

      • 将源数据中的yesno分别转换为01

      • 对于多种类的文本型字段,结合业务场景将数据抽象化。例如Mjob字段,将teacher表示为1,其他值表示为0,即抽象后该特征表示工作是否与教育相关。

      • 对于目标列,将取值大于18的表示为1,反之表示为0

      使用归一化组件将所有字段转换为0~1之间,从而消除字段大小不均衡造成的影响。

      将输入数据集按照8:2的比例拆分为训练数据集和预测数据集。

      通过逻辑回归算法,生成离线模型。

      通过混淆矩阵组件评估模型准确率。

  3. 运行工作流并查看输出结果。

    1. 单击画布上方的运行按钮image.png,运行工作流。

    2. 工作流运行结束后,右键单击画布中的混淆矩阵,在快捷菜单,单击可视化分析

    3. 混淆矩阵对话框,单击统计信息页签,即可查看模型预测准确率为80%以上。

相关文档

关于算法组件更详细的内容介绍,请参见:

  • 本页导读 (1)
文档反馈