AI用于语音识别 - 现行公司,技术和趋势

Ayn de耶稣
头像

Ayn在Emerj担任人工智能分析师,涵盖人工智能在各个行业的应用案例和趋势。金博宝官网她此前曾在埃森哲担任多个职位。

AI用于语音识别 - 当前公司,技术,以及它的头部1

语音识别是可以识别口语的技术,然后可以转换为文本。语音识别的子集是语音识别这是一种通过声音来识别一个人的技术。

Facebook,亚马逊,微软,谷歌和苹果 - 五个世界顶级科技公司- 已通过谷歌主页,亚马逊回声和Siri等服务为各种设备提供此功能。

随着市场上有许多语音识别产品,我们决定研究语音识别的业务意蕴。通过研究这些公司的语音识别技术,我们试图为读者回答以下问题:

  • 语音识别如何为这些公司推动业务价值?
  • 为什么他们要投资于语音识别呢?
  • 这项技术可以在几年内看起来像什么?

我们先来了解一下这些科技巨头是如何以及为什么在开发语音识别技术。接下来是Facebook、亚马逊、微软、谷歌和苹果的语音识别技术。

发展语音识别技术的潜在原因

科技公司正在识别语音识别技术的兴趣,并正在努力制作语音识别标准对于大多数产品。这些公司的一个目标可能是使语音助理在上下文和内容周围更准确地发言和回复。

研究数据显示,未来一年,具有语音识别能力的虚拟助手的使用预计将持续增长,从2017年的6050万美国人增至2018年的6240万。到2019年,预计6660万美国人将使用语音或语音识别技术。

为了建立强大的语音识别体验,它背后的人工智能必须更好地处理金博宝官网挑战如口音和背景噪音。今天,发展自然语言处理和神经网络技术改善了语音和语音技术,这么多,以至于今天是据报道与人类相提并论。例如,在微软语音技术的错误率已被记录在5.1%由公司,谷歌报告将其汇率降至4.9%。

研究公司的研究和市场报告说语音识别市场将于2023年的价值180亿美元。随着语音识别技术变得更大,更好,研究估计它可以纳入从手机到冰箱到汽车的一切。一瞥在年度上看到的CES 2017.在拉斯维加斯展示,其中具有声音的新设备已启动或宣布。

为了对语音识别领域的领先企业进行比较,我们金宝搏吧列出了每一种产品以及它们的特点。

虽然所有应用程序都具有非常相似的特性和集成机会,但我们基于我们的研究点作为每个主要焦点区域的研究组成了它们。我们将在这件作品中注明的两个焦点区域是:

  • 智能扬声器和智能家庭:突出亚马逊,谷歌和微软
  • 移动设备应用:这凸显出苹果的Siri和Facebook语音识别的融合。

智能扬声器和智能家居

亚马逊回声和Alexa

直到近期,亚马逊的语音动力虚拟助手Alexa仅适用于亚马逊制造的商业产品。但是,亚马逊Web服务,已经制作了语音助手可供其他公司使用。亚马逊与英特尔合作推出一个Alexa语音服务设备软件开发套件这可能允许第三方公司将Alexa功能嵌入其设备。这个合作伙伴关系是亚马逊的“Alexa到处都是“ 战略该公司表示,其目标是让各种智能和可穿戴设备的制造商都能使用Alexa背后的技术。

CES 2018.在拉斯维加斯,索尼,Tivo和海信揭开了综合Alexa的智能家居技能,使客户能够通过语音控制电视。家电制造商如惠而浦,三角洲,LG和海尔也增加了Alexa的语音识别技能,以帮助人们从电视和微波炉到空调单位和水龙头的所有方面。根据这一点亚马逊亚历克萨网站,超过2,500多家品牌的超过13,000个智能家居设备可以控制alexa。

alexa现在包括其他公司的附加,现在附带30,000人技能。苹果将Siri和谷歌的未命名虚拟助手内置到智能手机和音箱中,而亚马逊将Alexa集成到其智能音箱Echo中。亚马逊没有透露最终的销售数字,弗雷斯特预测它将售出2200万回声单位据Forrester称,截至2017年底,击中此销售号码将使呼应成为美国最大的销售语音助理。

要为初学者启用Alexa技能,用户可以导航到Alexa应用程序的技能部分,以查看可用功能的目录。一旦用户选择了技能,点击“启用技能”。用户还可以通过语音启用技能。

作为虚拟助手,亚马逊声称亚马逊提供alexa for business.可以帮助专业人员管理他们的计划,跟踪任务,并设置提醒。集成到诸如会议控制台等设备时,该应用程序能够通过扬声器的声音控制会议室设置。Alexa的设备还可以充当较小的会议室中的音频会议设备,或在较大的房间中的控制设备。

罗技建造Alexa进入其和谐远程单元,以控制家庭娱乐系统和智能家居设备。这远程单元被激活当客户说简单的命令,如“Alexa,打开电视,”或“Alexa,播放DVD”。Alexa然后将请求发送到和谐,通过红外线,蓝牙或IP将请求中继到家庭设备。

根据亚马逊的说法,原型团队由罗技的一名高级软件架构师组成,他花了两个小时的时间来将Alexa融入和谐。一旦原型准备就绪,来自罗技的团队就准备了发射技能。据罗技报道,亚马逊报告说,从原型到生产级技能的建造不到两周。在本案研究中没有提供其他细节或数字。

整合alexa的其他产品包括armarm.com,Ecobee和Haiku Home。

在更基本的水平上,亚马逊也提供录制,自动语音识别(ASR)服务,使开发人员能够向其应用程序添加语音到文本功能。一旦语音能力集成到应用程序中,最终用户可以分析音频文件并返回接收转录语音的文本文件。

哈桑·萨瓦夫(Hassan Sawaf)是亚马逊网络服务(Amaz金博宝官网on Web Services)人工智能部门的主管,他领导了与人类语言技术相关的服务和技术项目的建设机器学习。他在德国亚琛大学博士学位赢得了计算机科学的博士学位,专注于言语和语言处理。

谷歌主页和助理

Google Assistant是Google的语音激活的虚拟助手,其技能包括通过Google Pay发送和请求付款,或者对其像素2 XL电话进行故障排除的任务。

助手可在Android或iOS手机,智能手表,Pixelbook笔记本电脑,Android智能电视/显示器和Android自动启用汽车等设备上提供助理。用户还可以在图书馆等地方时键入助手的命令。

对于儿童和家庭,谷歌助理提供50个与语音相关的游戏。例如,孩子们可以指挥助手与他们一起播放空间琐事。

谷歌和目标还合作,使购物者能够通过助理购买产品。

携带助手的谷歌智能扬声器的频谱包括首页。谷歌声称扬声器配备了超过5,000个智能家居设备 - 如咖啡机,灯光和恒温器 - 从超过150个品牌,包括索尼,飞利浦,LG和东芝。

2018年第1季度据报道,谷歌销售了320万家的家庭和家庭迷你设备,优于250万的Alexa-Powered Echo设备。两家公司都没有发布官方数据。

为了使助手更泛滥,谷歌开通了软件开发套件行动,这允许开发人员将语音构建到他们自己的产品中支持人工智能的产品中。金博宝官网

下面的3分钟视频显示开发人员如何使用Google助手界面创建自定义设备操作,并允许用户使用其语音与设备进行交互。

谷歌最近也推出了投资项目助理该公司投资致力于推进语音和辅助技术(无论是硬件还是软件)的初创公司,并专注于旅游、游戏或酒店行业。

根据该计划,谷歌将在技术,业务开发和产品方面提供支持。初创公司还将首次访问助理的新功能和程序;谷歌产品的学分,包括谷歌云;据谷歌介绍,潜在的共同营销机会。

一家公司签署该计划的公司是Botsciety.,使用Google Assistant,Facebook Messenger和Slack设计聊天应用程序。

Botsciety在其网站上没有案例研究,而是来自Microsoft,Hubspot,Finn.ai,Convrg和Black Ops的推荐,该公司将作为其客户的客户索赔。

蛇嘴梗也声称为AXA,埃森哲和普氏透视。

除了吐鲈,其他初创公司在这个计划中,是Go时刻,Edwin和Pulse Labs。

另一个谷歌演讲产品是AI驱动的云语音到文本工具使开发人员能够将音频转换为文本深度学习神经网络算法。该工具支持120种语言,可实现语音命令和控制、从呼叫中心转录音频、处理实时流媒体或预录制音频。

下面的3分钟视频显示开发人员如何创建语音命令。第一步是在JavaScript对象表示法中记录音频并在语音中创建文本应用程序编程接口(API)的请求(JSON) 格式。然后,开发人员将JSON请求发送到语音API并等待响应。

Ashwin Ram是谷歌AI的技术总监。在谷歌之前,他曾在佐治亚理工学院举行的计算机学院曾担任辅助教授六年。他还担任Amazon的Alexa Ai高级经理两年。阿什温举行了耶鲁大学计算机科学博士学位。

COMELTY CORTANA

微软也发布了自己的声控虚拟助手Cortana.2017年10月。

Cortana家用扬声器和移动设备应用程序提供用户提醒;保持笔记和列表;据Microsoft称,可以帮助管理日历。它可从Apple Store和Google Play下载,可以在个人电脑,智能扬声器和手机上运行。

用微软家庭音箱打电话邀请,Cortana被编程为帮助用户语音控制音乐,队列播放列表,向上或向下转动音量;并停止或开始轨道。但是,它不支持Spotify之外的主要音乐流服务。微软表示,智能扬声器也回答了各种问题;制作并收到Skype呼叫;并检查最新的新闻和天气。

在PC上,Microsoft声称Cortana可以在Office 365,Outlook.com和Gmail帐户中管理用户的电子邮件。Microsoft的说法,Cortana客户或技能合作伙伴包括Domino的,Spotify,Capital One,Philips和Fitbit。

作为技能示例,用户可以使用Cortana与Domino的披萨连接到下订单,重新排序他们最近的多米诺骨牌的订单,并使用Domino的Tracker跟踪他们的订单。用户可以通过登录或注册Domino的个人资料来授权技能。

首都人表示,其用户还可以从Cortana扬声器管理他们的帐户。要使用此功能,Capital One客户必须通过单击“连接”来连接其帐户首都一个应用程序界面在Cortana Web或移动平台内。一旦他们接受条款和条件,系统会提示他们输入您的首都一个用户名和密码。

如下面55分钟的视频中解释,开发人员都在寻找创造新的Cortana技能对于企业来说,首先必须设置开发环境,如云资源、计算机上的开发工具、Android或iOS移动设备或Harman Kardon Invoke speaker,以及Cortana应用程序本身。

伙伴关系Cortana和Alexa.正在进行中,允许亚马逊的智能扬声器在Cortana的帮助下访问Microsoft的Office套件。相反,微软表示,用户可以访问Alexa的巨大技能和智能,并且能够在亚马逊购物。项目发布日期尚未公布。

下面的4分钟视频演示了Cortana和Alexa在一个设备中的集成。要在两种技术之间导航,扬声器必须讲述虚拟助手的名称并发出技能。可以要求Alexa激活Cortana,反之亦然。

在微软的语音识别技术的核心处是发言给文本接口,将音频流归还文本。这是创建Cortana,Office等Microsoft产品的相同技术。微软表示,该服务识别出言论结束,并提供格式选项,包括大写和标点符号,以及语言翻译。

人工智能和微软研究执行副总裁Harry Shum,导致公司的Co金博宝官网rtana和Bing的总体AI战略和举措。他在Carnegie Mellon大学计算机科学学院获得了机器人学的博士学位。

移动设备应用程序

Siri由Apple.

当Apple首先将Siri融入2011年的iPhone 4,虚拟助理连接到一系列Web服务,并提供语音驱动功能,例如通过Taximagic订购出租车,从Stubhub中拉起音乐会详细信息,从腐烂的西红柿寻找电影评论,或者通过来自Yelp的餐厅数据进行筛选。

今天,Siri的能力包括翻译,播放歌曲,预订游乐设施和在银行账户之间转移资金。由于其机器学习能力,根据Apple的说法,它可以用新的命令编程。

虽然Siri在Google Assistant和Amazon Alexa领先于奥克斯,但仍有对其准确性的担忧与市面上的其他技术相比,在响应命令或问题时。

在一个2分钟的视频中,CNET.com测试了针对Google Assistant和Amazon的Alexa的Siri。在一点时,Alexa更准确且专门用于命令。在我们的研究中,我们还发现了更长的视频评论,显示SIRI落后于对所有三种语音技术提出的问题的准确回应。

2018年6月,Apple发布了Siri的变更,推出了新的专用快捷方式用户可以下载的应用程序。通过这些变化,Apple声称用户可以通过语音命令,文本或点击命令Siri执行更多操作。它目前在iPhone,iPad,Apple Watch和HomePod上提供。该操作包括连接和激活第三方应用程序功能,例如Tile应用程序来查找密钥,或从Kayak应用程序获取旅行信息。

Apple表示,用户还可以使用快捷方式来远程激活或控制恒温器和风扇等智能家庭小工具,或保存播客或无线电台。根据Apple的说法,用户也可以向家庭向家庭成员通知家庭成员,并根据苹果公司进行旅行措施。

下面的2分钟视频演示了用户如何使用SIRI创建播放列表快捷方式。

根据视频,Siri要求用户配置播放列表快捷方式的参数。这可能涉及要求Siri融入最近播放的音乐或流派。该应用程序还询问用户进一步自定义其他设置,例如将在主屏幕上显示的图标。用户开始创建此快捷方式通过给Siri进行口头命令,例如“让我成为播放列表”。

Siri快捷方式据说能够读取用户的上下文数据,例如日历事件和GPS位置,以便提供新的快捷方式。例如,有一个快捷方式。如果用户安排时间在特定日期看到电影,则可以要求Siri被要求进入不打扰模式。用户的时间和定位数据确定用户确实在剧院内。另一个例子是报告的快捷方式,可以基于日历事件和设备位置通知用户迟到的其他联系人。

第三方开发人员可以通过中创建和集成快捷方式进入自己的应用程序Sirikit.。有些人已经创建了一个网站,他们创建的捷径可以是共享与其他用户。

其他公司已经使用过Siri为自己的事业。其中一个是Claralabs.这家公司向苹果公司支付了克莱拉(Clara)的费用,这是Siri虚拟助理技术的改版。

ClarAlabs Management意识到它超过9小时,平均为135次发送的电子邮件,以安排和重新安排27次会议以及他们的招聘人员,共有18个员工时间表。据该公司表示,他们从Apple寻求建立其虚拟助理的帮助,以便通过简单的语音命令安排与公司利益相关者的招聘人员和会议的访谈。

在一个claralabs.博客Claralabs Briana Burgess负责人声明克拉拉帮助她的公司与14家公司举办了27次会议,几乎消除了写作和发送调度电子邮件的9小时。

其他使用Siri的企业包括Kasisto和DigitalGenius。

John Giannandrea是Apple的机器学习和AI战略的主旨,在那里他领导核心ML和SIRI技术的进步。在此之前,他在谷歌高级副总统八年,他领导了机器智能,研究和搜索团队。他赢得了苏格兰斯特拉斯卡莱德大学的计算机科学学士学位,他被授予了博士学位荣誉的成因。

Facebook语音识别项目

虽然Facebook已经扩大并提高了其面部识别能力,但它也购买了wit.ai.这家公司提供自然语言开发工具。

在收购时,Wit.ai是一个16个月的初创公司。自收购以来,Wit.AI声称其语音识别技术已被使用160,000名开发人员并集成到移动应用程序,机器人,可穿戴设备和智能家用电器,如恒温器,冰箱和照明。

下面的视频演示了Wit.ai语音识别如何与与...合作相结合的Nao机器人。筹码允许开发者创建动画、行为和对话框的程序。根据视频,Wit。人工智能使Nao机器人能够执行行走、握手和语音指令调度等任务。

公司在a中索赔博客该平台将保持开放,这可能表明Facebook热衷于广泛采用。

Facebook今天具有能力自动标题视频广告通过语音识别。下面的视频解释说,向视频广告添加字幕使得Facebook用户能够在向下滚动NewsFeed时查看广告的主题。Facebook广告商可以通过指示将字幕添加到Power Editor并选择“自动生成”。

Facebook还收购了眼睛是一个虚拟现实耳机制造商,2014年的20亿美元。2017年3月,Oculy宣布它有集成语音和语音识别可以让用户在虚拟现实中轻松导航。这款应用可以在Rift和Gear VR头盔上使用英语版本,允许佩戴者在Oculus Home上进行语音搜索,以导航游戏、应用程序和体验。

下面的视频显示了Oculus耳机用户如何讲语音命令,从“嘿Oculus”开始,并说明“查找”,“取消”,“启动”等简单指示。

Facebook于2013年从纽约大学聘请Yann Lecun,以领导Facebook人工智能研究组。金博宝官网在NYU,Lecun的研究和教学机器学习,AI,数据科学,计算机视觉,机器人,计算神经科学和知识提取15年。

结论思考

55亿美元语音识别行业已预测以2016年至2024年的11%的速度增长。

这项技术以转录应用的形式在其他较小和不太知名的公司中得到了很好的应用。目前在卫生保健,医疗专业人员使用演讲来发送文本转录应用程序,如多贝为患者创建电子医疗记录。

执法合法的行业,等公司差别提供准确、快速的转录应用程序是一个关键需求,转录也用于记录事件报告。在媒体中,记者使用转录应用程序,例如记录作为辅助更准确的新闻报告的努力记录和转录信息的工具。在教育领域,Sonix帮助研究人员转录他们的定性访谈。

在提供演讲和语音识别能力的五家领先技术公司中 - 谷歌,亚马逊,微软,苹果和Facebook - 类似的能力围绕调度,提醒,管理播放列表,与零售商连接,管理电子邮件,制作食品订单和在线搜索。

这些都是在移动,个人电脑上提供的,并且在他们自己的品牌家用扬声器中提供。亚马逊的Alexa正在Echo上,Apple的Siri在HomePod上,Google Assistant在Google Home上,微软的Cortana正在调用。只有通过Oculus虚拟现实耳机和视频广告上的字幕提供语音识别能力,才能从此趋势分歧。

虽然苹果是这一领域的小型拖车,但Siri已被证明比亚马逊的Alexa和Google Assistant更聪明,与其他人相比有限。在一般知识方面,a学习由近5000个问题组成的谷歌助手是这四款应用中最聪明的。

但是在技能方面,一个单独的报告展示Alexa在1719年的25,785年,谷歌助手和235年的Cortana展示了最多的技能。Siri不包括在本报告中。这些公司可以归因于这些应用程序的业务版本的越来越多的技能。软件开发套件(SDK)已为开发人员提供,使启动和小企业能够为客户构建定制技能。

以下是我们如何相信这些公司在业界竞争的情况下基于我们的研究:

  • 谷歌设立了助理投资计划来为初创公司提供资金,目的是推进言语和语音识别技术。
  • Facebook聘请了AI行业专家并获得了几个语音识别初创公司。
  • 微软与亚马逊合作,可能加强了Cortana的生存的机会。

标题图像信用:Szifon.

保持领先于AI曲线

发现在业务未来将赢家分开获奖者的关键AI趋势和应用程序。

注册“AI Advantage”时事通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - check your inbox for a confirmation email">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
subscribe-image
零售作弊表中的AI

在我们的8页作弊表中发现零售和电子商务产业的关键AI应用和相关数据科学。

谢谢你!你的《零售备忘单》中的AI被发送到你的收件箱。