网站首页
手机版

属于机器学习常见流程的是

更新时间:2022-03-18 09:04:14作者:佚名

属于机器学习常见流程的是

品牌型号:lenovo ThinkPad X250
系统:Windows 10
软件版本:

属于机器学习常见流程的是

属于机器学习常见流程的是数据获取、特征提取、模型训练和验证、线下测试、线上测试。

1、数据获取:首先从线上拉取用户真实数据,用现有模型过一遍这些数据得到一些有用的信息作为标注人员的一个参考,加快标注速度;标注完成后,数据入库并解决冲突,冲突即是同一个query,两次标注结果不一致,解决冲突的办法一般是人工check,得到一个更准确的标注;

2、特征抽取:NLP任务一般需要抽取数据的特征,如ngram、词典特征、词向量特征、上游模块的输出等。一般离线和在线均需要特征抽取,所以离在线的这部分代码是共用的,避免在线特征抽取和离线不一致。抽取特征时有个小技巧是把能想到的特征均抽取出来,并保存成文本文件,避免重复的执行特征抽取的步骤,在实验的时候用mask的方式去屏蔽掉那些对模型没用的特征,因为针对神经网络这样的模型,值为0的特征一般不影响最终结果(如tanh/ReLU等,但sigmoid激活层可能会影响)。这样抽取出来的特征的格式一般还不能满足机器学习框架的要求,通过脚本转化成机器学习框架要求的格式即可。

3、模型训练和验证:常用的模型训练和验证步骤是:首先以一个简易的算法开始,快速的进行实现,并在交叉验证集上进行验证;然后画出它的学习曲线,通过学习曲线确定是否更多的数据或者更多的特征会对模型的优化有帮助。接着人为地检测交叉验证集中被错误的进行分类的或者预测的样本的共同特征,从实际入手对模型进行调整,不断调整并验证在交叉验证集上的误差,寻找最优的结果,优化模型。

4、线下测试:指在模型验证有提升后,在测试集上测试模型的性能指标。线下测试可以将模型集成在应用程序里测试,也可以单独测试模型。线下测试的指标一般跟具体的业务需求相关,包括:准确率(accuracy)、精确率(precesion)、召回率(recall)、F1值等。

5、线上测试:是模型上线后的测试,是跟业务紧密相关的一个指标。在实际工作中,一般先将版本上线至一个复制小流量环境,打到这个环境的流量同时也打到线上环境,然后同时取出线上环境的结果和复制小流量环境的结果,抽出两者的diff,人工做gsb(good bad same),即针对有diff的case,人工标注小流量好(good),还是线上好(bad),或者两者打平(same),如果good多于bad,说明gsb通过,可以上线供用户体验。这种方法与A/B testing类似。模型上到线上后,可以通过用户行为反馈模型的好坏,如用户点击、pv等。


本文标签: 线上  数据  的是  模型  测试  

为您推荐

怎么能删除微信里的聊天记录(怎么能删除微信里的聊天记录图片)

1、方法一:清空聊天记录,打开需要删除记录的微信好友对话框。页面跳转,点击右上“三点”聊天详情图标。进入聊天详情,点击“清空聊天记录”即可。2、方法二:卸载微信APP,长按微信图标,选择“删除APP”即可删除聊天记录。

2023-12-10 10:51

什么是云计算(什么是云计算机)

1、云计算(cloud computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期,简单

2023-12-10 10:50

怎么显示隐藏文件夹(电脑怎么显示隐藏文件夹)

1、首先,单击右键,选择“属性”,把任意一个文件的属性改为隐藏。2、然后打开“此电脑”,点击左上角的“查看”。3、接着勾选“隐藏的项目”,就会发现刚刚被隐藏的文件重新出现了。4、如果要查看的文件是被隐藏的系统文件,可以把

2023-12-10 08:41

北斗定位掉线是什么意思(北斗卫星定位掉线啥意思)

1、北斗是中国自主研发的北斗卫星导航系统,北斗定位掉线是指北斗定位器与服务器的交互断开,这时在监控平台就会显示掉线。2、交通部门会强制大货车安装北斗定位系统,它除了能显示该车辆的运行轨迹、车速等信息外,还可记录车辆违法超

2023-12-10 07:41

怎么看加密相册(怎么看加密相册密码)

1、首先我们先打开想要查看相册的对象的空间。2、点击进入相册页面。3、找到想查看的加密相册。4、输入问题答案点击然后确认。5、即可看到相册里的照片。6、退出来相册也是可见的,再次进入不需要输答案。

2023-12-10 05:51

真我GT5 真我gt5中框材质

真我GT5 Pro价格3298元起 徐起:友商不敢定这价

2023-12-09 09:38