2018年10月24日
By 小君海德真实眼媒体的技术总监
专题文章

如何选择视频人工智能平台并评估其效果

为什么人工智能(AI)现在是一个流行词? 我们制作的视频内容越多，我们的媒体库就越大. 我们的员工中只有有限的一部分人能够吸收这些媒体, 处理它, 并为其添加元数据标签.

我们的组织需要帮助使这些内容更易于搜索，这样我们就可以在我们的内容上获得更多的投资回报率. 假设你在一家监控公司工作, 你可以在10个或100个摄像头上全天候监控. 你可能无法得到足够的人工帮助来搜索这些媒体，但你可以得到人工智能的帮助.

在音频方面, 对转录的需求很大, 此外还有字幕要求和翻译需求. 并不是所有公司都有翻译人员, 但如果我们的系统中有人工智能翻译, 即使是不完美的翻译也会有很大帮助.

四大

在视频人工智能领域有四个关键角色: 亚马逊网络服务 (AWS), 谷歌云, IBM Watson Media, 微软Azure的视频索引器. 每个都有许多服务.

AWS为人工智能提供的四项核心服务是重新识别, for computer vision and adding deep learning-based visual search and image classification; Comprehend, which tries to understand sentiment and what’s going on within the language; Transcribe, which converts audio to text files; and Translate.

谷歌云平台的特点是视频智能, 自然语言API, 语音识别, 和翻译API.

IBM沃森媒体是用于媒体工作流和视频处理的人工智能, 但IBM的平台与其他平台的最大区别在于，它需要将视频分成单独的片段. 沃森媒体旗下的三款产品是视频推荐, 字幕(语音识别), 视频增强(计算机视觉).

第四个是微软Azure，又名Video Indexer. 要访问微软的认知和索引功能，请访问videoindexer.ai, 哪里有一个很酷的用户界面，你可以登录并上传视频, 并开始免费获得人工智能生成的元数据.

本文将从四个主要特性:人脸/物体/场景识别来研究这些平台和服务, 情绪分析, 监测, 和转录/翻译. 在选择平台时，请记住，这完全取决于用例. 所有四个平台都返回JSON (JavaScript Object Notation)数据, 所以如果你想的话，没有什么可以阻止你使用它们. 你可以看到一个自定义应用程序的演示，我的公司, 真实眼媒体, 建立在AWS和谷歌云之上, 在一段这是我在2018年东流媒体大会上做的一个演讲.

如何开始

如果你的组织内部没有开发人员, 许多供应商都提供了他们平台的演示版本，供你试用(图1). 例如，免费版的微软Azure视频索引器就非常强大. 你可以把小部件嵌入到你自己的系统中. 本文讨论的四个平台之一, 视频索引器是最完整的产品，你可以访问，而不必通过合同谈判.

领先视频AI平台的演示版本, 左起顺时针:谷歌云, IBM Watson Media, 微软Azure视频索引器, AWS

谷歌云和AWS在其页面上提供演示, 但是它们并没有真正将服务暴露到您可以将其嵌入到自己的系统中的程度. 在这种情况下, “嵌入”本质上是指写一些代码来获得一个iFrame加载到你网站的页面上. 谷歌云和AWS的在线演示版本并没有真正起到帮助作用, 但是你可以上传你自己的视频, 等待应用程序处理它们, 看看这项服务对你的视频有多好.

IBM销售一些Watson产品，比如Video Enrichment(图1中的右上方). 它们是api优先的. 从理论上讲, 您可以购买这个付费产品，并在您的系统和IBM的系统之间进行通信，从而将元数据拉入您的系统.

生成元数据是人工智能的主要用例之一. 假设您已经存档了一个电视节目的多个季节, 你有一个媒体资产管理器(MAM)，它容纳了所有这些存储资产的元数据. 让计算机为你生成一些元数据不是很好吗, 所以除了标题, 季节, 还有剧集名称, 比如“车祸”,”“豹,和“小女孩”(或任何适用于你的内容的术语)，你可以用它们来更容易地搜索和发现你的内容? 你的开发人员首先要知道的是，“学习曲线是什么? 这些平台都有哪些可用的软件开发工具包(SDK)?”

AWS有一个客户端SDK, 它基本上就像一个加速器，让你的开发人员不必从头开始编写所有的代码. 他们可以在AWS提供的样板上构建自己的代码，还有Android、iOS、Java、 .净等. 我的开发团队已经试用了这个SDK，他们发现它非常全面.

选择视频AI平台的一个重要步骤是让开发者测试任何可用的演示版本. 倾听他们的反馈, 因为如果您的团队成员不需要花费大量时间来学习如何使用软件，那么他们的工作效率将会更高.

与AWS一样，谷歌云平台也有大量的客户端sdk: .网络,节点.js, Go, Java等. 但是从开发者的角度来看, Google的API文档非常冗长, 而且需要点击很多次才能找到所需的内容——比AWS开发人员文档要多得多, 在他们看来. 例如, 如果你只是想知道如何将视频发送到谷歌服务, 而不是看到要上传的有效负载的签名, 你必须花三到四个段落来解释签名中的每一个数据点.

IBM Watson Media的API参考存在于付费墙之后. 当你想使用它时，你告诉IBM Watson Media的人，“这是我的用例. 我想尝试一下你的系统，因为我想我要买下它.“然后你签一些合同. 就我而言，作为IBM的合作伙伴，他们非常友好地与我分享了API文档. 看起来很简单.

Azure有客户端sdk, 但是要与视频索引器交互，您只需使用它的API而无需SDK. 如果您需要SDK可以提供的额外提升, 那么Video Indexer可能不适合你. 亚马逊和谷歌有Java, Android, iOS, Ruby等等，如你所见图2. 你的开发者也许能够在这些平台上更快地创造出一些内容. Video Indexer文档非常出色. 它布局良好，只要您有一个活动帐户，就可以对其进行内联测试.

AWS的API学习曲线/SDK概述, 谷歌云, IBM云/沃森媒体, 以及微软Azure视频索引器

测试平台

我测试了很多不同类型的镜头, 但是因为有太多的数据返回, 我缩小了测试的重点，以强调特定的用例. 当涉及到翻译和转录时, 视频监控, 或者元数据和对象, 在这些情况下，哪些平台效果最好?

关于人工智能需要记住的一点是，人工智能的聪明程度取决于你训练它的数据. 以IBM沃森为例, 如果你去网站看一些案例研究, 你会看到该公司为美国网球公开赛做了一个项目，这对训练它的人工智能很有帮助. 如果你从事体育行业, 当涉及到物体检测或看到球在球场上被击中时，IBM沃森可能会为你提供更准确的结果. 另一方面, 如果你做新闻镜头, 谷歌可能会为你提供更好的服务, 因为用户在YouTube上直播新闻.

在评估特定平台是否适合您时，考虑这些不同类型的用例是很重要的, 因为最终, 所有这些机器学习解决方案所处理的数据是训练人工智能变得更聪明的东西. 这与任何积累知识的过程类似. 我有开发人员背景，但我在流媒体行业工作. 如果你问我哪个相机是最好的, 我不会有一个好的答案, 因为我的背景中没有这些数据.

这是看待人工智能的一种方式:你将向它发送特定的数据, 它会从这些数据中学习. 它所学习的数据类型会以这样或那样的方式使它更准确.

解读数据

图3 显示了使用这些系统返回的数据类型的示例. 一般, AI解决方案是这样工作的:它们有一个API，允许你的开发人员到达一个端点并传递一些数据. 这就像你打开浏览器，输入“google”.搜索“ducks”，然后按回车键. 开发人员使用API以编程方式到达像google这样的终点.com. 比如“我的服务”.com/v2/api/visionservices/detectObjects”，你会传递给它一个API期望的数据负载.

人工智能平台上处理过的视频有效载荷的样本数据. 请注意,, 因为这张截图是在2018年5月拍摄的, 微软Azure视频索引器已经开始在其响应JSON (按此放大).

这就像你去谷歌，输入一个搜索字符串，然后按回车键. 开发人员会发送一个有效载荷，说:“我的视频在这里. 请处理.“然后你等待处理发生，因为它不是瞬间发生的. 一旦处理完成, 你会有可以拉下的数据, 与谷歌的搜索结果相媲美.

所有这些服务都使用JSON，即图3所示的数据交换格式. 这太棒了, 因为它使您能够从规范化并在自定义应用程序中使用的多个服务中获取数据. 当您使用一种格式时, 它使解析返回的大量数据变得容易得多.

在图3所示的示例中，我发送了一个预告片 美国杀人魔. 您可以在最左边看到它在AWS中返回的数据. 它说，“我在时间戳18196毫秒找到了一个人，我97岁.8222%肯定.“这是你在AWS中通过对象检测得到的数据.

使用Azure视频索引器(左起第二列), 它说, “我找到了一个时间范围为00:00:21的人.438 to 00:00:22.14.在Google栏(左三), 您可以看到，它在多个实例中识别了“人类”“实体”, 时间标记以秒和纳米为单位, 置信度在85%到96%之间.

Keep in mind that the computer doesn’t actually “see” a person; it’s learning from all of the data that it’s processed historically and making its best judgment based on that, 所以知道置信值是非常重要的. 如果你的主要兴趣是识别物体，你希望它准确, 您一定要注意所报告的置信度值.

下一个页面