毕业论文
您现在的位置: 自动化 >> 自动化发展 >> 正文 >> 正文

机器学习狗太苦逼了自动化调参哪家强

来源:自动化 时间:2022/9/12
北京哪些青春痘医院好 http://m.39.net/pf/a_9113231.html

作者|FacundoSantiago

译者|李志

编辑|Debra

动机:机器学习狗太苦逼了

在给定的数据集上实现最先进的结果是十分困难的。这往往需要小心翼翼地选择正确的数据预处理方式,精心挑选算法、模型及架构,并装配最合适的一套参数。这种端到端的过程通常被称为机器学习流水线/工作流。这套流程中的每一步怎么走并没有一个经验上的固定方向。而且,因为新的模型不断被开发出来,就连选择合适的模型都成为了一个巨大挑战。超参数的调试通常需要对所有可能值进行遍历或抽样,也就是把所有参数都试一遍。然而,这也并不能保证找出来的东西就是有用的。在这种情况下,自动化选择参数和调试机器学习工作流的过程早就成为了机器学习社区的目标之一。这类任务通常被称为元学习——学习如何学习。

这似乎也是人类历史开始时我们祖先的目标。这是一个有趣的故事……

空空道人与石头记(译者瞎编的,其实是哈利·波特与死亡圣器)

很久很久以前,一位炼丹的道长擅长在某种框架下用某种语言训练模型,但这个框架其实早就废弃了,他用的编程语言也早就没人用了。有一天,一位长者让他在一个神秘的数据集上训练一个模型。

然而,道长在这个数据集上用成千上万的方法训练了无数次,也没得到想要的性能。他去自己的图书馆查阅相关资料,找到了一本书,里面讲了一种特殊的符咒。这个符咒可以送他去一方胜境,在那里所有秘密都被揭开,所有可能的模型都被尝试过,所有优化方法都被实现了。他念动符咒,疾唤一声“开”,只见一股青烟自平地兀自升起,道长便被送往那胜境(对不起译者胡扯太多了:p)。在那里,他了解到了如何得到一个更好的模型——于是他照做了。在回去之前,他难以抑制自己的冲动,要将这种神力全数带回。因此,他将此方胜境中的所见所闻刻于石上,题为自动化,携回那苦逼调参之邦。若有访道求仙者寻得这宝物,便可神力倍增,从此训练任何模型都可称心顺遂。

这故事很恐怖吧?我不知道这故事是否是真的,但在现代社会中,机器学习领域的巨头们很乐于将这种事变成真的(当然可能会进行一些微小的改变)。本文中,我会分享一些现在可用的设定,并帮助你建立起一种直觉,让你知道巨头们都在做什么(因为虽然它们的名字里都有“自动”这个词,却没有什么相同的地方)。

Azure自动机器学习(预览版)

是否开源:否

是否基于云:是(仅测试,训练可在任何机器上进行)

支持任务:分类,回归

所用技术:概率矩阵分解+贝叶斯优化

训练框架:sklearn

该方法背后的思想是,如果两个数据集在几个机器学习工作流上都得到了相似的结果,那么它们很有可能在剩下的其他工作流上也得到这样的结果。这种说法可能对你来说很熟悉,尤其是如果你以前处理过推荐系统中的协同过滤问题,也就是如果两个用户在过去喜欢过同一件东西,那么他们在未来可能会喜欢相似的东西。

图:P个工作流、D个数据集的输入矩阵可视化。图中的数字代表数据集d在工作流p上获得的值的平均值。

解决这一问题需要考虑两个子问题:其一,学习出不同数据集和不同机器学习工作流之间的一种隐藏表示,以捕捉二者之间的关系,来预测某个工作流在某个数据集上能够获取的精度;其二,学习出一个函数,可以让你准确知道下一个要尝试的工作流。第一个任务可以通过创建一个矩阵来解决,该矩阵记录了不同数据集上不同工作流获取的平衡精度。该方法的相关论文(链接:

转载请注明:http://www.0431gb208.com/sjszyzl/1551.html