法律和法律的语音识别和转录的AI

丹尼尔Faggella.
头像

Daniel Faggella是Emerj研究的首脑。丹尼尔呼吁由联合国,世界银行,国际刑警组织和龙头企业,丹尼尔是AI对商业和政府领导者竞争战略影响的全球追捧。

法律和法律中的语音识别和转录

您是否曾经沮丧则与Alexa或Siri如何无能理解您的口头请求?如果是这样,那么你已经了解我们的客人这斗争的问题。他是Tom Livne,verbit.ai的联合创始人兼首席执行官。

Verbit是一家专注于人工智能转录的公司法律和法律空间。他们使用的组合机器学习和人类专家在不同的噪音环境中转录音频,在不同的噪音环境中,用不同的解释,给予人们更准确的结果,并希望有助于处理规模。

在这一集中,Livine解释了五个不同的因素,进入转录权并获得AI能够帮助进入过程。此外,汤姆谈论转录将在将价值投入业务方面发挥作用的一些关键因素。

订阅我们的AI在工业播客使用您最喜欢的播客服务:

itunes-podcast
soundloud-podcast
google-podcast
Stitcher-Podcast.

客人:汤姆·蒂夫恩,联合创始人和首席执行官 -verbit.ai.

专业知识:企业家精神/技术启动生命周期

简要认识:Livne拥有耶鲁大学工商管理硕士学位

采访亮点

(03:00)让我们了解今天转录的可能性?

TL:想想这个播客。我们正在录制这一集,让我们假设我们想要获得专业成绩单。当我参考专业成绩单时,我的意思是100%的准确性。它今天完成的方式,它是完全手动,对吧?人们正在从头开始听,键入它,它会产生有限的规模和低毛利率。

另一方面,语音识别技术可达到70 - 80%。如果我们上法庭只提供自动成绩单,这是不够的。所以我们在Verbit解决这个问题的方法是使用人机混合的方法。

所以我们有自己内部开发的语音识别技术。我们有符合我们技术的模式。我们有9个博士团队在研究它。我们有来自全球各地的自由誊写员的网络和平台的结合,他们可以自动输出机器的内容,并对其进行修正,使其达到100%。

所以关于什么是可能的,我提到了该技​​术不存在。和它的原因,我会解释原因。几乎没有影响语音准确性的参数,这就是机器的原因。并且。在我的角度来看,即使在现在10年内,我们也无法达到100%的机器。

因此,影响语音识别准确性的参数是一个,语言模型。所以想想你是否转到法律转录或医学转录,有很多特定的术语和特定词语与此用例相关。对于机器,它真的很难这样做,也可以获得人们的名字,也可以获得特定术语,因此这会影响准确性。

第二件事是声学模型。所以,如果你在开放空间中说话或者如果你通过电话说话或者有法庭,等等,所以所有这些不同的声学模型也会影响语音的准确性。

第三个,你们可以听到我糟糕的以色列口音,所以口音通常会影响语音转换的准确性。所以你需要调整它来训练机器掌握一种特定的口音。然后是第四种:背景噪音。人的重叠,所有的背景噪音,都在破坏机器的输出质量。

第五是说话的节奏。你说得非常非常快或者非常慢,这也会影响准确性。

最后一个是用词。如果有人在说话,年轻人或小孩或老人在说话,这也是影响说话准确性的具体措辞。所以如果你在一个不同的用例中组合所有的参数,这真的非常非常困难,几乎不可能正确地得到所有这些。除非您有这个特定用例的特定数据,否则将这个特定客户的所有这些参数组合在一起,这将使您获得90%以上的准确性。

我们在Verbit的工作不是要取代人类,(但)实际上是帮助人类做得更好,让他们的生活更轻松。

(08:30)这些是在这里有挑战性的因素。我想知道这些中哪一个是最难以忍火的。

TL:我认为每一个非常艰难的在他们自己的独特的方式,但是如果你问我我认为所有声学模型和背景噪音,能够识别不同的扬声器,等等,这是很难的,要适应不同的声学环境和……录音的质量控制。

To be able to adapt the algorithm accordingly, this is something that is very challenging and with all of the neural nets and the ability to train, still it’s having a hard time to understand sometimes when you put to the machine something with bad recording and bad acoustic…I think this is the toughest one.

(10:30)换句话说,即使算法训练的人类直觉仍然有特殊性的人,仍然存在遗留的地方......采取差的音频并填补空白,仍然是你认为人类的东西边缘?

TL:我相信,因为他们有能力一次又一次地听到它,并获得输入来理解所说的上下文。

所以我猜一个法庭…永远不会满意的机器,只是因为他们是法律规定的100%(精度),这是需要大量的时间和信仰上的飞跃,直到他们能够相信这台机器能够得到完美的输出为他们提交…你有谷歌,你提到百度…他们正在建设非常通用。因为我们正在采取更多的垂直方式,这使我们可以更为任何客户量身定做,这将使我们获得更好的结果的优势。

因为在一天结束时......什么是语音识别技术?语音识别正试图确定已经说过的,并且存在非常复杂的统计模型,以节制排名,在向您展示最佳猜测的最佳猜测中所熟悉的概率。你有很多参数,以便以最佳方式猜出那里的最佳方式。这实际上是因为你认为有血迹作为那里的语境。当您在通用引擎中,语音识别引擎时,您只需将输入,即音频,输出将是基于同一算法的文本,每个算法都用于语音识别。

如果您考虑有关博语......您需要使用这种上下文层,为您提供[信息如]所讨论的人,您有这种重音,这是他正在谈论的,法律空间,在这个声学环境中的行话。因此,使用所有这些参数,以便在执行此操作之前在从语音到文本转换中提供更好的准确性。这是帮助我们的东西,因为我们不是常规的,我们正试图非常量身定制。

(14:30)当你想到我们现在可以从现在开始的五年来做些什么,你现在不能通过转录,你最希望在改进方面取得实际牵引力的地方?

TL:所以我们正在考虑它的方式是术语,只要转录就会很多。我们认为转录刚刚聪明,我的意思是什么?想想...电话的用例?当您有公开交易公司......在季度的季度结束时与分析师谈论公司结果。

认为有一个自动转录,然后你已经速度数据,您可以创建可操作的链接和意图,你知道苹果是谈论iPhone X,所以你可以识别转录,这就是一直说,你可以……点击直接进入网站和购买iPhone X你可以做一个比较,把所有你自动记录下来的数字创建一个图表,创建一个可视化的图表,并将它与过去的结果进行比较因为你已经有了过去结果的记录。并从数据中获得更多的见解。金宝搏吧

因为我们允许人们从口头资产中获得更多价值,所以我们想要允许我们的客户获得更多价值的所有这些口头沟通和信息。

(17:30)你能谈谈转录的业务价值吗?

TL:想想一旦你有一个证人的检查,那么你可以看到他过去的证词是否违背自己?也许他躺在[所以我们可以尝试分析他的声音,以实现一些文本。您可以提取许多事情,因此语音和转录是第一层。你可以在很多事情上做很多东西。我们认为转录市场非常非常大。一旦我们能够提高准确性,我们就能允许更多的人在口头资产中获得更多价值。

订阅我们的AI在工业播客使用您最喜欢的播客服务:

itunes-podcast
soundloud-podcast
google-podcast
Stitcher-Podcast.

标题图像信用:地球和邮件

保持领先于AI曲线

发现在业务未来将赢家分开获奖者的关键AI趋势和应用程序。

注册“AI Advantage”通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - check your inbox for a confirmation email">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
订阅镜像
保持领先于机器学习曲线

加入超过20,000名以上的可调性的商业领袖,并收到每周提供的最新的AI研究和趋势。

感谢您订阅EMERJ“AI Advantage”时事通讯,请检查您的电子邮件收件箱进行确认。