九五免费小说网

手机浏览器扫描二维码访问

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
从龙

从龙

《从龙》从龙目录全文阅读,主角是林晗一着他小说章节完整质量高,包含结局、番外。?从龙作者:竟夕起相思引言:先帝夺权实录,年下美人x暴躁黑莲分类:纯爱,古代,综合,完结标签:剧情,正剧,江湖朝堂,欢喜冤家,双向暗恋,he,帝王受,权谋,完结文案:开新啦:c759986...

深度按摩

深度按摩

精油开背,推拿按摩。老板,您想体验哪个? 视钱财为己命的小白领忍不住一次次点了八号技师的牌。 最操蛋的是。 他竟然觉得自己不亏? 按摩技师攻×小白领受 深度按摩。 越按越深。 ——老板,其实这是我给你的私人服务。 依旧市井文,开车练手。 谢谢喜欢。多多留言。 * 求生欲 故事非现实/看完想去养生的各位宝贝请寻找正规场所,本文概不负责/作者非专业,文中涉及生理知识已尽力查阅相关科普及资料,不保证完全正确...

鸳鸯床

鸳鸯床

《鸳鸯床》作者:六棋文案话本里,上辈子过的不幸的妇人,总会庆幸还有重来的机会,并且在第二世给自己换个丈夫,过上幸福日子。但在月鸯身上不是,她现在非常后悔,她甚至希望自己没有重生。因为这辈子她重生回来,刚刚和前夫和离不久,天下就大乱了。王侯将相各为其主,月鸯的前夫收拢了十二座城池,占据一方,成了护国的大将军。而她在跟家人逃命...

野火暗涌

野火暗涌

京都人人都说岑霜就是没人要的小垃圾,从小就被丢在周家,也就周聿安是个好人,‘照顾’她十几年。但只有岑霜知道,深夜里周聿安是怎样将她抵在玻璃窗上咬吻。她以为自己总是特别的,可最后却在他生日宴上得到一句:“岑霜,记住你的身份。”原来不管过多少年,在他眼里自己都是上不得台面的东西。离开周家的当晚,岑霜烧毁了和周聿安有关的......

不可攻陷

不可攻陷

一个任务失败的美人杀手被军官囚禁起来啪啪啪的故事 CP:土匪作风军官攻(陆天锋)x清冷禁欲杀手受(段逸) 受有性功能障碍(药物副作用),后期会痊愈 题材关系,要收费的 提醒:攻受都不是好人,没有节操,没有三观,不要勉强看文,雷到不管...

成仙纪

成仙纪

安林,一个捡来的弃婴,五岁被送入学院做富贵子弟的陪读生,却在高等学院中接触到修真一途,到后面经过努力拜得宗门求道,却差点被恶毒长老一掌打死,最终无奈找到一个落魄宗门求道,展开一段精彩绝伦的故事,若渴修真证仙位,须吃万年争渡苦,观这修仙路途险恶人心毒,任我一浮飘舟负剑渡神魔,破开万世轮回迷,还世清净一道途。......