首页 基金 正文

鸡尾酒会效应(鸡尾酒会效应是过滤器模型还是衰减模型)

wx头像 wx 2023-12-29 16:00:18 6
...

  这篇文章希望能够帮助没太接触过机器学习的朋友快速鸡尾酒会效应了解。开始的时候鸡尾酒会效应我的内心是拒绝的鸡尾酒会效应,是对我一个很大的挑战。一方面鸡尾酒会效应,这是一门很复杂的学科鸡尾酒会效应,通常应该是上一门课,按部就班,才能真的学懂,靠一次分享试图讲明白,基本是一个不可能完成的任务,所以这篇有文章有个别名叫做机器学习碟中谍。另一方面,有人确实感兴趣,但又没有太多的时间去系统的上课或者培训。最后是,我认识的人里面很多都是比我在机器学习这一块道行要深得多得多,想到他们看到我分享这个,估计肯定会觉得我有点不自量力了。所以,如果今天的文章能够让大家了解某些常见的概念在整个机器学习应用中所处的位置,也就算达到我的初衷了。想着就觉得难为情。

  估计部分读者看起来会比较费劲,作者没用到任何一个模型公式来表述,尽量用到极其通俗易懂的方式表述。中间我会贴出几张图,帮助大家有个直观的理解。

jibo家庭机器人

  现在假想你有一个实际的问题可以用机器学习来解决,可能是我们熟悉的支付中如何区分有诈骗风险的交易,也可能是亚马逊的相关商品推荐系统,也可能是作者之前在Airbnb出租过房屋的定价问题(作者住在琶洲会展馆旁边),还可能是微信、微博、Facebook朋友圈怎么找到新朋友并向你推荐新朋友等等等等。我们说已经有很多现成的算法实现,有Python的包,有R的包,假设我们把每一个可以拿来用的算法假想成是一个封装好的有接口的黑盒子,每种不同的算法是一个不同型号的黑盒子,那么你有了你的问题,有很多很多黑盒子供你选择,这时候你怎么办?

  了解两件事,就可以正确的运用这些黑盒子了。一是这些盒子大同小异,但都有一些极相似的基本模块。二是不论你用哪个盒子,就像收音机找台,都有一个基本的步骤可以遵循。今天我们就讲这两件事(第一件事用上篇表述)。

  机器学习的应用面很广,几乎应用在所有跟人工智能沾边的领域,换句话说,就是可以帮助人做决定或是识别一些有用的信息。常见一点的例子,比如电脑里面的棋类游戏的对弈决策,无人驾驶飞机或汽车的控制程序,手机的语音识别和手写识别,Google 百度的搜索引擎等等,都可以用到机器学习。机器学习大致可以分成三类,监督学习,无监督学习,和增强学习。

  今天主要就讲讲监督学习。它的一个比较严格的书面定义是:

  监督学习(supervised learning)从给定的训练数据集(training set)中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征(feature)和目标(target)。训练集中的目标是由人标注的。

  举个简单的例子。假如你知道一些房子,每个房子的大小和房价,这里房子大小就是特征,是输入,房价是目标,是输出。那么,你可以根据这些已知的房子大小和房价,学习出一个函数,然后可以用这个函数预测一个新的房子的房价,如果已知它的大小特征。

图片来源网络

  在实际工作中,特征和目标都可能更复杂,特征通常不是单一特征,而是很多特征。举个某某公司支付的例子(后面用“A”表示)。主要产品是一个移动信用卡读卡器,可以配合智能手机或者平板电脑使用,在任何网络状态下,甚至某些无网状态下,让商家安全方便的接受消费者的信用卡支付。这一技术大大的降低了刷卡消费支付的技术门槛和硬件需求。 A后期也有很多新的产品,如小商户提供贷款,帮他们提供网上商店的网站等等等等。

鸡尾酒会效应(鸡尾酒会效应是过滤器模型还是衰减模型)

  就说 A的读卡器吧,该产品是一个四四方方的小方块插到手机的耳机输出口后,在手机上装一个 app 并且设置好你的收钱银行账户,别人就可以用信用卡在读卡器上刷卡给你付钱。这对一些需要收信用卡的小商贩如出租车司机,小商贩老板等是非常有用的。对于每一笔信用卡交易, A收取顾客的信用卡支付确认后24小时后将把这笔钱转到商家的银行账户。而 A实际收到信用卡公司的这笔钱却是一个月之后甚至更久。所以一笔成功的交易,现金流是A先给钱给商家,然后信用卡公司一段时间后转钱给A。假如有一个顾客的信用卡其实是偷来的或者有别的问题,那么如果A接受了这笔信用卡交易,并且付钱给了商家,但是后来信用卡公司又以正当理由拒付这笔钱,那么A就要承担这笔交易的损失。所以,当一笔交易发生时,A需要决定是不是应该接受一笔交易。那么这个决定是怎么做的呢?用的就是机器学习的技术。每一笔信用卡交易有很多 feature(特征),比如,这张卡的国家,哪个银行发的卡,这张卡有没有在A有交易记录,记录如何,这张卡的持卡人有没有交易记录,有没有别的卡也是这个持卡人,都有什么记录,等等。 A积累了很多的交易记录,以及每笔交易的最后有没有从信用卡公司收到钱。那么训练集所有的这些交易记录,每笔记录的输入就是该笔交易的特征,输出是该笔交易是不是欺诈。我们希望通过学习这个训练集,找到一个函数,这样当A有了一笔新的交易的时候,就能够比较可靠的预测这笔交易最后会不会成功收到钱,是不是欺诈。

  那么机器学习到底是怎么来做这些事呢?机器学习的理论涉及到很多门学科,如概率论、统计学、逼近论、凸分析、计算复杂性理论等。在学术界,研究机器学习的人就是把各种各样的问题抽象成一个机器学习的问题,也就是:从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。目标就是让这个预测结果越准确越好。具体的机器学习的算法很多,通过回归分析和统计分类来构造条件概率,如人工神经网络,各种决策树等等。每个算法,当训练集满足一定的条件,预测的误差都是可以量化的控制在某一个范围的。

分类问题

  既然学术界已经有了这些算法,那么实际工作中,又需要一些怎样的机器学习的的技能呢?首先,对已有的机器学习的算法有个比较全面的了解,知道哪一类问题可以使用的算法有哪些,每个算法的理论是什么,有什么优缺点。这个算法被用到一个特定的问题上时,需要你的训练集达到什么样的条件,比如,已有信用卡记录有多少,概括了多少种情况。而对于你现有的训练集,预测的误差从理论上来讲可以保证控制到什么范围。有了对算法的基本把握,才有可能在实践中把合适的工具用到合适的问题上。

  然后,针对具体的问题,如何界定训练集以及他的的输入和输出。对于训练集里面的每个输入,也就是每个输入我们关心哪些特征,怎样把这些特征从实际数据中抽象出来,并合理的表示。并不是考虑的特征越多越有效,为什么呢?一是特征的个数,也称维数,特征维数越高,需要用的算法模型就会越复杂,这样很容易产生机器学习中称为过度拟合的问题,尤其是数据集不够大的情况。简单的说,过度拟合就是训练出的函数对于训练集匹配的很好。但是对新数据的预测往往偏差反而大。所以特征维数高的第二个问题就是对训练集的大小的要求也会变得很高。这样,如果不断增大训练级,就会带来第三个问题,也就是训练,测试,和存储的开销都会变得很大。因此,我们希望从实际的特征中进行选择,尽量以最小的特征集来完成机器学习。那么怎样筛选界定不同的特征,需要一定的经验,也需要实践中不停的尝试和调整。另一方面,现实中,目标函数,也就是要预测的东西,也不是一定就很一目了然的。比如信用卡诈骗。预计过于保守,虽然能保证单笔交易的损失减少,但是,拒绝了一个实际上非诈骗的交易,对产品长期的使用率和用户体验也是有很大的负面影响的。

线性回归

  此外,数据集本身也是很容易有一些问题的。举两个例子。用信用卡交易从他的特征区分是不是成功的交易还是诈骗交易。我们称所有结果是成功的交易叫做正样本,所有结果是诈骗的交易为负样本。那么经常遇到的一个问题就叫做数据不平衡问题。从名字就不难看出,比如你的训练数据正样本很少负样本很多,那么直接拿来训练很容易有偏差,如何处理这个情况?还有,如果数据集中有一些异常值,他们的存在会可能是训练中的噪音,可是如果完全剔除,又可能减少了模型的实际覆盖度,这种情况应该怎么处理等等。

  最后,训练集不是静态的,每天可能都有新的数据产生,需要相应的更新你学习出的函数,这样对新数据的目标预测才能相对保持更新。怎样保证训练集被有效的用到你所选用的算法模型中呢?这个通常被称为建立数据管道(build data pipeline)。这里面根据不同的应用会有很多不同的技术问题。举几个例子。首先,怎样,收集以及保存这些数据。这就可能牵涉到一些大数据相关的技术。通常需要 Hive 相关的支持,完全是一个独立的大主题。(顺便说一句,Hive 是基于 Hadoop 的一个数据仓库工具,它用 MapReduce 的方式来处理类似数据库的结构化存储和 sql 查询。)然后,输入集可能是有很多 noise 和 bias 的(干扰数据和误导数据)怎样有效的对输入集进行预处理和筛选,这是根据不同的应用,可能需要大量的工程师资源来做的事。而且,这些输入的特征有些并不是可以很直观的用数字来表示的,怎样抽象出这些特征,怎样量化,也是需要一个决策-实践-调整的过程的。

  说到这里都是说的监督学习。通俗点说就是可以帮助人做一个决定。最后简单提一下无监督学习和增强学习。

  那么什么是无监督学习呢?无监督学习与监督学习相比,训练集没有人为标注的结果。我在做生物信息学的数据分析时,用的其实是这一类。但是解释起来有太多生物学的比较生僻的概念,所以还是拿一个很有名的鸡尾酒会效应来打比方。当我们和朋友在一个鸡尾酒会或某个喧闹场所谈话时,尽管周边的噪音很大,我们还是可以听到朋友说的内容。因为我们的大脑可以帮我们识别出应该注意的声音,区分出背景声音。那么怎么样用算法来模拟人脑的这个功能呢?这种功能做成算法,有很多的应用,如,在生物信息的 DNA 里找到负责同一生物功能的 DNA 群,比如一个演唱会里又多个录音点,后期处理怎么从这多份录音里分析处理出想要的歌手的声音,比如图形图像处理里的人脸识别等等。这一类问题不像前面我们说的信用卡欺诈的识别那样对每个新输入做一个预测,而是从一个输入集里选择识别隐藏的有用的信息。常见的研究方法有聚类分析等。

鸡尾酒会效应(鸡尾酒会效应是过滤器模型还是衰减模型)

  最后是增强学习。这是很有意思的一种机器学习。增强学习通过观察来学习应该如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。比如,无人机的驾驶。如果驾驶的不好,就会撞墙,也就是坏结果,如果保持不撞,就是好结果,它没有精确的输入/输出对,而是强调在未知领域的探索和对现有知识的遵从之间找到平衡。以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即人或动物如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预测,产生能获得最大利益的习惯性行为。

图片来源网络

  当然,这些都是我对机器学习一些很肤浅的了解和认识。网上有很多资源,尤其是讲算法和理论的,有很多。如果你想更进一步的了解这个领域,可以花些功夫去学习。每一个应用的算法和实际问题都不一样。如果能找一个实际案例,从他的算法选择,特征参数选取调整,以及数据管道的建立等系统的感受一下,应该对机器学习的应用会有更深的体会。

  期数 | 第3期

  作者 | 科技侦察兵(微信 O2OPark_GZ)

  版权所有,欢迎转载!

  科技侦察兵:已入驻“今日头条”,“企鹅媒体平台”、“搜狐公众平台”、“百度发布平台”、“UC订阅号”等各大自媒体平台,日访问量过十万,属于科技自媒体之列的新秀;语音在“喜马拉雅”首发。

本文地址:https://www.changhecl.com/449914.html

退出请按Esc键