机器学习项目失败的5个原因,你中招了吗?-美度广告联盟,广告联盟评测首选,日付广告联盟

机器学习项目失败的5个原因,你中招了吗?

站长资讯|2018-08-09 16:28:37

1.问错了问题

假设美度广告联盟你问了错问题,你将会得到差错的答案。比方金融业中的欺诈辨认问题,这个问题初步可能是“这个特定的生意是否存在欺诈”。为了判定这一问题,你将需求一个包含欺诈和非欺诈生意示例的数据集。这个数据集可以在一组专门担任侦测欺诈行为的专家(SME)的帮忙下生成。但是,由于专家们根据的是以前对欺诈行为的知道进行的符号,用该数据集操练的模型只会捕获符合旧方式欺诈,而关于新式的欺诈方法,这一模型将无法辨认。假设将问题改为“这个生意是否异常”,它只需寻找不符合“正常”签名的生意,依托人类进一步分析猜想的欺诈生意以验证模型效果即可。但这种方法的副作用是,它很可能会比从前的模型发作更多的误报。

2.妄图用它来处理差错的问题

我们经常会忽视一个问题:我们费尽心思处理了一个问题,但是处理后是否能结束我们的目的。比方,你想出了用人工智能开发出一个将人的全身照传上网站就能根据提示量身定做一套合身的衣服的项目。作为技术专家,我们最了解的就是产品规划与编码,因此我们可能想初步研讨前两个任务。假设我们在实行前两项任务后进行可行性研讨并且研讨效果标明我们的产品没有商场,那将很可怕。

3.没有满意的数据

有一些数据非常活络并且遭到严密的保护,对它的访问可能会遭到很大的束缚,我们可能获取不到相关数据。比方,在一些与生命科学领域相关的项目中,由于生命科学工作对存储和传输受保护的健康信息(PHI)非常活络,大多数可用数据集都会将这些信息删去。例如,密西西比人比康涅狄格州的人患糖尿病的可能性更高。但是由于这些信息可能无法获得,我们将无法运用。

4.没有正确的数据

就算你具有超棒的模型,运用差错数据或许有缺点的数据也可能导致猜想差错。在监督学习中,我们运用从前标明过的数据,由于这种标签通常是人做得,可能会存在一些差错。举一个极点的比方,假定有一个具有完美准确性的模型但运用了不准确的数据,如MINIST数据集,图像的人工符号是100%准确的。现在,假定三分之一的数字被贴错了标签,就如陈腐格言所说的,假设是废物输入,你将得到废物输出。

5.具有太多数据

从理论上讲,你永久不需求许多的数据(只需它是正确的数据)。在实践中,即使存储和计算成本和功用获得了巨大的行进,我们仍然遭到时间和空间的物理束缚。所以数据科学家最重要的作业之一就是明智地选择他们认为会对结束精准的模型猜想发作影响的数据源。例如,猜想婴儿出生体重。与母亲的年岁及住处如同相关,但与母亲的名字可能不相关。在本例中,需求人工干预来判定删去不相关的数据。在工作模型之前,判定哪些因素相关仍是一个潜在的骗局,可能会损坏你的数据科学项目。