品味与艺术中的AI——理解偏好的机器学习的当前状态

丹尼尔Faggella
头像

Daniel Faggella是Emerj研究的首脑。丹尼尔呼吁由联合国,世界银行,国际刑警组织和龙头企业,丹尼尔是AI对商业和政府领导者竞争战略影响的全球追捧。

品味与艺术中的AI——理解偏好的机器学习的当前状态

金博宝官网人工智能和机器学习已经推动了技术创新营销,电子商务以及其他几个行业。许多人都体验过AI和ML系统的好处在不知不觉中每次他们在谷歌上搜索或者在Spotify上点击一首歌。

人工智能可以帮助推荐电影和音乐——是什么让这些系统在葡萄酒或美术(如油画或雕塑)方面缺乏鉴赏力?

在某些方面,在机器中培养艺术或烹饪“品味”的挑战与推荐电影或音乐的挑战大不相同。

将艺术或烹饪“味道”融入人工智能系统的挑战

最近,搜索和推荐引擎似乎在理解用户意图方面变得相当出色。特别是,在很多情况下,推荐引擎可以在产品首次出现在网站上并点击产品列表几分钟后就向网站用户推荐产品。这就好像推荐引擎能够判断出用户对音乐或服装的品味一样。

Netflix推荐电影的方式,或亚马逊推荐产品 - 与人类互相推荐的事情非常不同。机器尚未使用我们所谓的“味道”和人类理解的方式 - 他们只能通过在数据量中找到模式来实现理解的代表。在某些情况下(例如电影或音乐推荐),与人类偏好相比,这些代理可以非常有效和可扩展。

有人可能会说,机器最终可能有能力鉴赏好波尔多葡萄酒,但在目前的情况下,它根本无法做到这一点;机器无法“欣赏”人类意义上的任何东西,因此在没有人类用户反馈的情况下,它们无法判断葡萄酒的“好”或“坏”、味道的“好”或“坏”。机器只能根据从人类输入的数据来判断味道的好坏。

此外,如果没有大量量化的、可重复的数据,机器还无法以任何合理的精度来确定这些质量。这种类型的数据并不总是可用的。每当一种情况要求对难以量化(换句话说,品尝)的特定刺激进行主观评估时,机器将没有做出评估的基础。

然而,人工智能模型可以被训练成在特定条件下准确预测味觉偏好。在某些情况下,这些味觉的代理决定因素很容易得到。在另一些情况下,人类需要付出大量努力才能产生必要的数据,以便训练机器学习模型理解味觉。

以下是人工智能和机器学习模型目前可以和不能确定用户口味的一些例子:

音乐- Spotify如何确定用户的喜好

人工智能准确预测人类口味的一个具体例子是音乐。2016年,美国音乐产业的销售额超过70亿美元,其中68%来自Spotify等订阅流媒体音乐平台。这些音乐平台使用机器学习来告知他们推荐引擎。这些推荐引擎提供了Spotify倾听者,通过提供与其品味相关的建议进行订阅。反过来,听众可能更愿意自己购买音乐文件。

Spotify等的原因平台在销售音乐中是如此成功的是,它们是对个性化的预测。它们能够根据用户自己的历史和具有类似配置文件和人口统计数据的数千个其他用户的参与,确定他们可以针对哪种类型的音乐呼唤特定用户吸引。

Spotify拥有来自其数百万用户的大量数据点,用于向特定用户提供相关推荐。它有关于人们听某些歌曲或倾向于听其他歌曲的量化数据,人工智能将其解读为“喜欢”或“品味”。推荐引擎会记录特定类型的用户听一首歌或一段音乐的时长,他们暂停或重播某段音乐的频率,以及他们将这首歌纳入播放列表的频率。

2017年在巴塞罗那的DataEngConf会议上,Spotify数据/后端工程经理Gandalf Hernandez分享了Spotify用来决定推荐音乐和从音频轨道学习的一些过程:

Spotify - 通过各种手段 - 使用此数据作为“喜欢”的代理,当它累积足够的数据(歌曲播放,歌曲评级,将歌曲添加到播放列表等时),它可以准确地预测用户的内容侦听特定的歌曲将希望听到接下来并相应地提出建议。当特定用户拒绝特定建议时,Spotify还注意到以便改进未来的建议。

例如,首次使用Spotify的用户可能会选择只听两首歌,这两首歌都是古典音乐作曲家谢尔盖•拉赫玛尼诺夫(Sergei Rachmaninoff)的作品。这并没有给人工智能提供足够的用户信息来做出好的推荐。然而,推荐引擎背后的人工智能有大量来自其他用户的数据他们也在听这两个特定的拉赫曼尼诺夫的作品,所以它会观察那些其他用户点击了什么,然后为这个新用户提供一些建议。

例如,“来自某个国家的其他用户下载了Spotify并立即收听RachmanInoff通常最终喜欢[x]其他歌曲。让我们推荐[X]其他歌曲作为低挂果实以接受这位用户。“

当新用户点击下一首歌曲时,人工智能将使用这些额外的数据点为该特定用户完善未来的推荐。随着时间的推移,推荐引擎背后的人工智能将在“理解”用户的音乐品味方面变得更好,或者至少会更好地向他们推荐音乐。

这种所谓“理解”的关键是大量数据的可用性,这些数据可以被输入推荐引擎背后的机器学习模型。AI并没有真正推断或假设某种类型的音乐符合用户的口味;它利用用户根据响应、反应和行为提供的数据进行判断。它的“理解”方法是关于概率和对数百万用户“喜欢”音乐的各种代理的评估。

构成机器学习模型的算法的能力在模型做出预测和建议的能力中起着重要作用。这些算法往往会不断变化,因为数十个数据科学家经常在任何特定时间工作。

但是,即使是最好的算法也无用,没有他们可以运行的数据。幸运的是,对于音乐行业来说,通过流式传输音乐服务,可以随时获得数据。我们的听觉意识翻译进入数字世界。对我们的一些其他感官和与他们相关的味道的方面来说,这并非如此。

葡萄酒-感官口味和人工智能

有人可能会说,如果可以训练机器“理解”或至少在音乐方面根据用户的品味推荐产品,那么在葡萄酒方面也应该可以训练它做同样的事情。假设,是的,机器学习如何识别用户对音乐的品味的过程同样适用于用户对葡萄酒的品味。然而,采样音乐和采样葡萄酒是不一样的。它们涉及两种不同的感官,而物理味觉并不适合数字化。

当用户点击一个音频文件,他或她可以在一个纯粹的数字环境中体验和日志的反应通过听音乐的,重演,选择一个相似的音乐,或者放弃mid-play甚至跳过的东西完全不同。所有这些数据点都是数字化采集的,这些数据点可以立即通过机器学习模型进行处理。

量化人们如何决定它们是否喜欢特定的葡萄酒并不像预测特定用户一样的音乐类型一样简单。舌头并不像耳朵所做的那样赋予数字化。收集葡萄酒数据所需的参与在物理世界中发生,这不立即可用于完全在数字空间中存在的机器学习模型。

如果希望确定用户在培训机器学习模型的葡萄酒中的用户品味的代理,他们需要在物理世界中收集大量数据,其中机器学习模型可以找到模式。

而且,品酒是出了名的主观。机器学习模型没有味蕾,所以它永远无法像人类那样理解感官味觉信息。因此,它很难确定用户的偏好,或味道葡萄酒。它只能根据葡萄酒的化学成分和每个使其成为“好”葡萄酒的特征的感知价值,给葡萄酒的特定属性赋值。为了让机器学习模型准确预测哪种葡萄酒可能会吸引人们,构建该模型的数据科学家需要以某种方式收集与葡萄酒偏好相关的可量化数据。由于这些数据需要在物理世界中收集,这可能不是不可能的,但可能会非常困难。

可量化的因素可能包括:

  • 葡萄酒中发现的化合物
  • 葡萄酒中各种化合物的相对含量(每毫升)
  • 葡萄酒的颜色
  • win的粘度
  • 葡萄酒的种类(波尔多、仙粉黛等)

更有挑战性的是如何在人类的感知中提炼出真正的人类“味道”标签,例如:

  • “顺利”
  • “橡木”
  • “水果”
  • "酸味,但表面光滑"
  • 等等……

为了真正将这些主观经验提炼成品质可以可靠地推荐酒,大量的控制味觉测试将会与人发生各种各样的口味偏好,在葡萄酒和可量化的因素(化学组成、颜色等)必须可靠地“映射”的这些主观经验报道成千上万的人类(或成千上万)。

还有其他挑战。让人类一天听100首歌是完全合理的。对100杯葡萄酒做同样的事意味着要去趟急诊室。食物的存在让事情变得更加复杂——因为一个可靠的系统可能需要用同样的酒来训练——但需要几十种不同的食物(从奶酪拼盘到鱼片,等等)。

它可能需要在各个地点,大量参与者以及几个葡萄酒品尝会话中进行高度仪表的受控环境。这些参与者将被要求品尝随机选择的几种葡萄酒。将预先分析这些葡萄酒中的每一个以获得化学成分,并且将分配所选性质的编码质量。

然后,将要求每个参与者根据这些品质评估每种葡萄酒,例如ph,花束和甜味。根据评级,参与者将在一到10岁的李克特规模上判断葡萄酒。规模将量化参与者的判断,从理论上,机器学习模型可以利用这些判断来确定可能构成“好”和“坏”葡萄酒。

这种数据收集方法需要大量的时间、金钱和努力。训练一台机器做出合理准确的葡萄酒推荐所需的数据量需要数月。Spotify只需要30分钟就能收集到同样数量的数据。

也就是说,李克特量表的判断是主观的,常常是异想天开的。同一个人可能会根据自己的心情,一天给一瓶酒打“5”分,第二天又打“7”分。另一种解决办法可能是采取更客观的措施。例如,亚马逊(Amazon)就在推荐引擎中大量考虑了购买历史。如果一名参与者给一款酒评分为“7”,但随后在品酒会上买了3瓶,机器学习模型可能会把这一购买视为更大程度上代表“喜欢”的行为,而不是参与者的判断。很可能买了三瓶特定葡萄酒的人认为葡萄酒在某种程度上是“好”的。

由于这些挑战,如今的葡萄酒推荐更有可能来自购买数据,而不是任何对葡萄酒化学成分的可靠评估,或将化学成分“映射”到“顺滑”或“果味”等人类主观术语上。购买数据很容易。味蕾数据难。

总之,网上购物者可以查看一瓶葡萄酒的产品页面,并得到其他葡萄酒的推荐。页面上的推荐引擎背后的机器学习模型可能能够确定,品酒会上给购物者看得比较高的葡萄酒打分的参与者也可能给另一种葡萄酒打分高。然后,推荐引擎将向购物者显示其他葡萄酒。

视觉艺术 - AI模型如何理解图像

最近,谷歌宣布AI的实验他们试图拍摄一张图片,并对其进行编辑,使其更适合观众。据谷歌AI介绍,机器学习“模仿专业摄影师的工作流程,在谷歌街景中漫游景观全景,寻找最佳构图,然后进行各种后处理操作,以创造出赏心悦目的图像。”

然而,需要注意的是,“审美愉悦”是一个非常主观的概念。让一些人高兴的事情可能并不适合另一些人。这一切都取决于上下文。人工智能可能能够模仿专业摄影师的质量和工作,用于特定用途,如为滑雪胜地做广告,但人们不希望在博物馆看到这样的广告。一个特定图像存在的环境会影响人们是否喜欢它。

从艺术的角度来看,视觉媒体和葡萄酒一样难以判断。为了教人工智能学会欣赏视觉艺术,有必要将其分解为机器能够“理解”的可量化代理。“这可以通过给颜色、形状、手势和其他视觉元素的组合赋值来实现,并让人们再次在李克特尺度上对这些组合存在的图像进行评级。

幸运的是,收集视觉数据要比收集感官味觉数据容易得多,因为视觉可以很好地转化为数字世界。谷歌图像、Facebook和其他视觉媒体平台接收图像上的数百万个数据点,包括图像中的特定颜色和特定像素。

机器学习模型可以使用这些数据点,并使用它们来预测特定用户可能对像素数据的反应,人类大脑将像素数据解释为图像。例如,一个机器学习模型可以确定,与美国其他地区的人相比,加州某个县的人更有可能对主要涉及蓝色的图像做出反应。这一决定可以通知推荐引擎,以便向该国家的人们推荐产品。它还可以告知营销活动以视觉广告为目标的人。

人工智能并没有真正理解那个县的人更喜欢蓝色的图像,但它根据数据、数字和统计数据预测了他们可能对这些图像的反应。

人工智能理解味觉的现状

机器没有感觉。因此,他们现在都无法拥有自己的偏好和口味,无法真正了解使用它们的人类的偏好和口味。他们可能会在将来能够做到这一点,但这是一个相对较远的前景。

目前,他们依靠数据来做出预测和确定可能性,模仿人们“理解”彼此偏好的方式,而没有真正掌握人类大脑的全面理解能力。随着时间的推移,这些统计机器学习方法可能会扩展到化学感官(味觉和嗅觉),但这样做有一些固有的挑战,这是我们试图在本文中强调的。

标题图片来源:共和,华盛顿

保持领先于AI曲线

发现在未来商业中区分赢家和输家的关键AI趋势和应用。

注册“AI Advantage”时事通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - check your inbox for a confirmation email">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
subscribe-image
qwfwef

wwefwef

wefwefwef.