谷歌正将其资源投入大量用于AI和机器学习研究,旨在为未来提供产品和服务。因此,无论是计算摄影还是电子邮件建议功能,谷歌一直活跃于此。最近,谷歌还推出了著名的”谷歌录音机”。你可能想知道,有几个录音机应用程序在市场上,所以为什么呢?但我们都知道,如果它来自谷歌,它必须是顶级插槽的竞争者!

在我们进一步探索之前,让我们来看看谷歌是否阅读比赛!而且,是的,我们看到谷歌在基于AI的研究和发布方面做得非常好。

最近推出的谷歌录音机应用程序是一个应用程序,一直由机器学习算法,以无与伦比的精度转录音频。它不是谷歌没有经历过谷歌剪辑的失败,但这个程序有那些功能,可以使它惊人的成功。它目前在谷歌的旗舰移动品牌Pixel 4上提供,但应用程序开发者也在进一步研究,使其在Android平台上提供。

您可能还对:关于语音识别技术您需要了解的一切

让我们深入挖掘!

但首先,什么是机器学习?

它是人工智能的组成部分,它依靠学习和适应两个功能蓬勃发展。因此,它将机器学习算法注入程序,这些程序从大量数据中学习,并根据数据进行调整。

仍然不清楚吗?

好吧,让我们让它更容易给你。

机器学习是一种理论,计算机程序无需任何人工干预即可学习、破译和适应。机器学习处理大量数据,也称为大数据,它根据给定的算法使用这些数据并有意义。

让我们也看到一些事实,使机器学习

  • 预计到 2024 年,全球机器学习将从 2017 年的 15.8 亿美元达到 208.3 亿美元
  • 复合年增长率预计将增加44

2018年10亿至2025年达到1260亿美元。

关于谷歌录音机

谷歌录音机是实时功能,是一个应用程序,记录音频和破译它,将其转换为文本,这有编辑的能力。最好的部分是它从竞争对手中脱颖而出,它也可以离线工作。事实上,用户甚至不必单独授予命令进行转录,因为它是自动的。

关于谷歌录音机,你必须知道的6件事

1. 采用边缘优先模型设计

公司采用移动优先设计理念,开发应用,获得丰富的移动体验,然后是桌面版本。我们知道,基于机器学习的应用程序在云上运行,这使得应用在考虑到安全问题时速度变慢,风险更大。但谷歌录音机已经开发使用RNN-T传感器模型,这是背后的原因,谷歌语音记录应用程序。

它使用单个神经网络,这被认为是对解码错误的最佳选择。如果公司希望开发具有更大保质期的应用程序,那么它将不得不摆脱传统的思想流派。

2. 更好的技术堆栈

该应用程序已使用 Swift 与 TensorFlow 结合创建。事实证明,这是一个伟大的协作,因为它已经转化为更快的应用程序开发时间和增强的性能。Swift 和 TensorFlow 为他们做了一个技巧,对于未来的 ML 应用程序,这似乎是一个伟大的命题。

3. 转录功能

现在,我们都知道,应用程序生成在音频录制的当前转录。解释的文本很容易扫描。这意味着,如果你正在寻找一个特定的单词,你可以简单地搜索这个词,而无需面对听整个音频的困难

设备上的语音识别模型允许应用在几个小时内转录已绘制的音频文件。如此录制的单词将绘制到录制的时间线。当用户点击转录片中的特定单词时,音频将从该点开始播放。

4. 欣赏声音

备受考虑的扭曲神经网络已用于将不同的声音连接到颜色。用户可以听不同的声音,如狗吠或鸣叫,并根据声音的强度,颜色将在波形分配。

只要看它,用户将能够可视化的声音。它还审核各种声音,并在 960 毫秒的时间段内每 50 毫秒启动一次。这将有助于用户精确定位开始和结束时间消除错误。谷歌记录器也有一个滑动窗口,它提供sigmoid得分矢量作为输出。

5. 标题和标签建议

就在录制完成后,应用程序还会根据音频的性质提供有关标题和标签的建议。语法含义和术语发生率有助于它做到这一点。这些条款作为实体进行隔离,并大写。

在预定算法的帮助下,它按下语音部分,并根据内容质量进行评分。然后,单词的最终选择将成为文本的标题或标记。

6. 用户隐私

如前所述,如果 ML 已在云平台上构造,则应用性能会降低,用户数据不受保护。当机器学习推断出数据时,它会在云平台上提供大数据,每个人都可以访问该云平台。您的个人信息也处于危险之中,但 Google 明白您的隐私很重要。

您记录和保存的数据可以是家庭会议或重要的律师对话。通过使其脱机可用,开放平台无法访问它,从而利用

目前为止,一切都好!

我已经介绍了相当多的关于广受好评的谷歌录音机,我们作为用户必须看到为什么机器学习是一件大事,需要做谷歌的方式。

现在是时候我们人类使用AI和ML作为工具,而不是与之竞争。如果研究正朝着正确的方向前进,未来看起来就光明了。

进一步阅读

机器学习

移动设备上的语音识别、翻译和文本到语音(视频)

Comments are closed.