教科书往往只提供一些看起来很强大的方法,你需要用数据测试一下就能得出结果,这也可能是从理论观点和数据源来说是对的,但是在现实中,数据和我们的时间是有限的,所以寻找大信息量的特点是非常有必要的。
三、选型大多数是看周期,而不是数据集的大小。
你不想在大数据时代过多的表达自己的观点,但是大多数数据会完美的融入你的主内存。你的方法可能不会在跑数据上花费很长时间,但是你会花很多时间从原始数据中提取出特征,进行交叉验证。为你的学习方法比较不同特征提取管道和参数。
对于模型的选择,你可以通过大量的参数组合,评估一个相同的数据副本的性能。现在的问题就是所有的组合爆炸,比方说你有两个参数,它需要大约一分钟来训练你的模型,并获得一个结果来评估数据集的性能。如果每一个参数有5个候选数值,并且执行5倍交叉验证(把数据分割成5部分,测试5次,在每次迭代中使用不同的数据来测试),这意味着你需要运行25次来找出哪种方法的效果更好,这可能需要花费两个小时的时间。
好消息是这是很容易并行化的,因为不同的运行是完全相互独立的。这同样适用于特征提取,您通常使用相同的操作(解析,提取,转换等),以每个数据独立设置,导致一些“ 密集并行”(是的,这是一个技术术语)。
坏消息是这对做数据分析的人来说是很多的,因为所有的这些意味着对复杂办法实现拓展实现是没有什么需求的,但是对于储存的并行数据运用一些相同的算法在大多数情况下都非常有帮助。
最后有很多数据并不意味着你需要所有的数据,问题是有关于潜在学习问题的复杂性。如果这个问题可以用一个简单的模型解决,你就不需要用那么多的数据来推断模型的参数。这种情况下,采用数据的随机子集可能会有很大的帮助。正如我上面所说的,有时候正确的共您可以帮助他们减少所需要的数据点的数量。
总之知道如何正确的评价可以帮助你减少一个方法不能应用与未来数据的风险。获取正确的特征提取可能是最有效的方法来获得最好的结果。最后。并不总是大数据,分布式计算也可以帮助你。
转自:中国统计网;作者:hong。
版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。
湘ICP备2022002427号-10 湘公网安备:43070202000427号
© 2013~2024 haote.com 好特网