机器学习和人工智能的巨大潜力和前景正在金融服务行业开花结果, 与 截至2017年,80%的企业已经在投资人工智能技术. 该行业预计将增长到57美元.到2021年将达到60亿美元, 承诺提供更准确、客观的判断,帮助预测, 预测和做决定.
正如我们所看到的,数据不是客观的,而是人类设计的产物. 我之前的文章 讨论了无意识的偏见如何在数据被输入机器学习程序之前就渗透到数据中. 下一个合乎逻辑的步骤是调查一些被人工智能算法本身放大的隐藏偏见.
1. 外推法
假设一个系统得到收入数据并决定, 基于那个特定的样本, 男性通常比女性赚得多. 如果另一个项目使用这一决定来对小企业贷款进行资格评估, 该算法可能错误地推断,男性是小企业成功的主要特征,并可能使女性贷款申请人处于不利地位.
从数据中推断一直都在发生. 根据一篇荒谬的文章, 机器人将取代950人,美国100万地面和维修工人中有000人 ——尽管目前这个领域几乎没有自动化,当然也没有“机器人”可以取代繁重的体力劳动. 在这个案例中,结论是根据牛津大学就业报告中错误的外推数据得出的, 而且它也没有考虑到新技术创造就业机会的速度,而这些就业机会可能并不存在. 如果人类分析师即使提供了背景也会犯外推错误, 这些问题将不可避免地存在于人工智能程序中.
2. 蝴蝶效应
也被称为“混沌系统”, 在这种情况下,数据中的一个小调整可能会导致输出的重大变化. 最好的例子就是天气预报, 哪一个有太多不可分割的因素需要考虑, 这使得在未来几天内做出准确预测几乎是不可能的.
想象一个用于创建经济预测的系统. 即使有大量的整体数据, 机器总是很难准确地预测未来会发生什么,因为不相关的、往往是微妙的事件会对经济产生巨大的、意想不到的影响. 根据一个看似无所不能的机器的预测采取行动是很容易的, 但在这样做的时候,我们当然应该有所犹豫. 银行需要能够在一定程度的不确定性下运营, 因为一个小事件可能会引发巨大的连锁反应. 像Brexit.
虽然有些人可能会建议更大的初始训练数据集可以缓解这种情况, 内特·西尔弗认为,如果“可用信息的数量呈指数增长, 同样也有 要研究的假设数量呈指数增长.“一个微小的数据元素就有可能改变整个大数据系统, 它阻碍了机器学习系统正确定位它们所寻求的答案的能力,也阻碍了人类正确解释输出的能力.
3. 相关性vs因果关系
相关性仅仅是两组变量之间的关系, and this relationship can be caused by three potential factors; pure coincidence, 相互的第三外部因素的影响, 或者一个变量对另一个变量的影响. 当机器错误地将相关性解释为真正的因果关系时,就会出现大问题, 创建有偏见 反馈回路.
以一家银行为例,该银行利用其历史数据创建了一个人工智能程序,以识别哪些客户可能会实施信贷欺诈. 使用结果, 该行将更多资金用于调查这些客户, 这样做的时候, 发现更多犯罪. 如果这些数据被反馈到深度学习程序中, 这将强化其发现,即这些顾客最有可能引发犯罪, 尽管很有可能查明的较高犯罪率是由于加强审查造成的. 机器将在恶性循环中从这些反馈中学习,从而损害其未来准确检测欺诈的能力.
机器学习的成功应用
大家都在关注人工智能的惊人能力, 培养更好的习惯和理解数据以及深度学习的工作原理是至关重要的, 这样算法就能得到适当的准备和训练. 利用客户洞察力对机器学习输出进行三角测量, 常识和历史数据可以帮助减少人工智能的错误. 数据应该用来为决策提供信息, 但我们需要意识到,实施制衡是为了监督自动化计划的成功.
在信息革命时代,工业各个方面的数字化程度都在不断提高. 无论你是从事农业工作, 医学, 银行, 运输, 建筑或社交媒体, 人工智能和机器学习无处不在. 抓住这些数字机遇是加速进步的关键, 但重要的是要理解并尽量减少可能影响深度学习程序的数据偏差.