申慱娱乐代理开户登入:唇语识别技术的开源教程,听不见声音我也能知道你说什么!

本文来源:http://www.661ib.com/www_xilu_com/

申博现金网怎么样,记者调查发现,面对这场“大考”,目前互联网领域的多数企业已为付费搜索贴上“广告”标签,但微信公众号、“大V”发布的营销“软文”依然我行我素,将商品链接深藏在“动人”故事中。  基于浏览器土壤,UC聚合了搜索、小说、游戏、应用分发等服务,并先后推出了移动游戏平台九游、神马搜索和PP助手等业务。>>今日最新2016年12月09日星期五[][原创]00:01:002016年12月08日星期四[][][][][][][][][][][][][][][][][][][][][][][][][][原创]16:22:59[原创]14:17:09[转载]13:57:58[转载]13:51:38[转载]13:48:20[转载]13:44:34[原创]12:07:00[原创]09:58:22[原创]05:58:00[原创]05:56:00[转载]05:56:00[原创]05:53:00[原创]05:52:00[原创]05:50:00[原创]05:48:00[原创]05:43:00[原创]05:42:00[原创]05:40:00[原创]05:39:00[原创]05:34:00[原创]05:30:00[原创]05:17:00[原创]05:11:00[厂商]00:57:22[厂商]00:54:382016年12月07日星期三[][][][][][][][][][][][][][][][][][][][][][][原创]10:34:54[转载]10:29:36[转载]09:56:51[原创]05:58:00[原创]05:58:00[原创]05:56:00[原创]05:56:00[原创]05:53:00[原创]05:50:00[原创]05:49:00[原创]05:48:00[转载]05:41:00[原创]05:36:00[原创]05:36:00[原创]05:33:00[原创]05:28:00[原创]05:15:00[原创]05:09:00[原创]05:06:00[转载]05:04:00[厂商]00:53:51[厂商]00:11:102016年12月06日星期二[][][][][][][][][][][][][][][][][][][][][][][原创]09:31:18[原创]05:59:00[原创]05:58:00[原创]05:57:00[原创]05:56:00[原创]05:50:00[原创]05:50:00[原创]05:43:00[原创]05:40:00[原创]05:38:00[原创]05:38:00[原创]05:38:00[原创]05:33:00[原创]05:32:00[转载]05:21:00[原创]05:18:00[原创]05:17:00[原创]05:13:00[原创]05:08:00[原创]05:02:00[厂商]00:46:36[厂商]00:15:552016年12月05日星期一[][][][][][][][][][][][][][][][][][][][][][][][][][][][][][原创]18:14:01[转载]08:22:26[转载]08:20:44[转载]08:18:40[原创]06:37:15[原创]05:59:00[原创]05:58:00[原创]05:58:00[原创]05:55:00[原创]05:55:00[原创]05:53:00[原创]05:52:00[原创]05:51:00[原创]05:50:00[原创]05:45:00[原创]05:43:00[原创]05:37:00[原创]05:31:00[原创]05:27:00[原创]05:27:00[原创]05:26:00[转载]05:20:00[原创]05:13:00[原创]05:09:00[原创]05:07:00[厂商]00:44:16[厂商]00:40:02[厂商]00:35:43[厂商]00:35:422016年12月04日星期天[][][转载]05:57:00[原创]05:21:002016年12月03日星期六[][][][][][][][][][][][][][][原创]05:52:00[原创]05:50:00[原创]05:49:00[原创]05:48:00[原创]05:45:00[原创]05:37:00[原创]05:28:00[原创]05:17:00[原创]05:14:00[原创]05:11:00[转载]05:10:00[原创]05:02:00[原创]05:02:00[原创]05:01:002016年12月02日星期五[][][][][][][][][][][][][][][][][][][][][][][][][原创]05:59:00[原创]05:58:00[原创]05:57:00[原创]05:55:00[原创]05:54:00[原创]05:51:00[原创]05:50:00[原创]05:50:00[原创]05:48:00[原创]05:46:00[原创]05:44:00[原创]05:43:00[转载]05:43:00[原创]05:34:00[原创]05:29:00[原创]05:22:00[原创]05:21:00[原创]05:18:00[原创]05:11:00[原创]05:08:44[原创]05:08:00[厂商]00:52:32[厂商]00:18:16[厂商]00:10:52郑州、开封、洛阳、安阳四大古都成为海外游客旅游目的地。

作为通信行业的巨头,华为在移动产品的布局上可以说达到了相当完善的程度,然而...资讯02月20日小米和华为都要做笔记本电脑这件事似乎已经是路人皆知的事情了,而近日有消息称华为准备在2月21日MWC上亮相华为2in1笔记本,而小米准备进军笔记本的消息由来已久,对于这个...资讯02月20日近年来全球笔记本电脑的出货量持续下滑,从2012年增长趋缓以来,PC市场的冬天已经持续4年。  加蓬88%的国土由雨林覆盖,天然气探明储量达到1万亿立方英尺,拥有520万公顷的可种植粮食作物和经济作物耕地。  此外,竺勇的父亲竺仁宝一直被市场视为其“马甲”。  手机从通话工具成为上网终端,手机上网催生的“低头族”,随时随地碎片化上网时间的不断累加,也让国人的上网时长不断增加。

相比较自媒体行业的泡沫,不少业内人士认为,正在风口上大肆起舞的直播行业泡沫更甚。看着动不动就涨停或跌停的市场,一批新人开始跃跃欲试,试图挤进商品牛那趟高速列车。”  按现在的预算,一直到2021年,空军有稍少于30亿美元用于两架新747总统专用大型喷气机的研究和开发。”【责编:zhangjun】

作者 | Amirsina Torfi、Seyed Mehdi Iranmanesh、Nasser M. Nasrabadi

译者 | 清爹

整理 | Jane

出品 | AI科技大本营

?

【导读】唇语识别系统使用机器视觉技术,从图像中连续识别出人脸,判断其中正在说话的人,提取此人连续的口型变化特征,随即将连续变化的特征输入到唇语识别模型中,识别出讲话人口型对应的发音,随后根据识别出的发音,计算出可能性最大的自然语言语句。

?

唇语识别并非最近才出现的技术,早在 2003 年,Intel 就开发了唇语识别软件 Audio Visual Speech Recognition(AVSR),开发者得以能够研发可以进行唇语识别的计算机;2016 年 Google DeepMind 的唇语识别技术就已经可以支持 17500 个词,新闻测试集识别准确率达到了 50% 以上。

?

?640?wx_fmt=jpeg?

?

大家一定很好奇唇语识别系统要怎么实现。Amirsina Torfi 等人实现了使用 3D 卷积神经网络的交叉视听识别技术进行唇语识别,并将代码托管到 GitHub 上开源:?

?

传送门:

/github_com/astorfi/lip-reading-deeplearning

?

接下来就为大家介绍如何使用 3D 卷积神经网络的交叉视听识别技术进行唇语识别,完整的论文可参阅:?

?

/ieeexplore_ieee_org/document/8063416

?

下面是进行唇语识别的简单实现方法。

?

640?wx_fmt=gif640?wx_fmt=gif640?wx_fmt=gif

?

用户需要按照格式准备输入数据。该项目使用耦合 3D 卷积神经网络实现了视听匹配(audio-visual matching)。唇语识别就是这个项目的具体应用之一。

?

?

概况

?

当音频损坏时,视听语音识别(Audio-visual recognition,AVR)被认为是完成语音识别任务的另一种解决方案,同时,它也是一种在多人场景中用于验证讲话人的视觉识别方法。AVR 系统的方法是利用从某种模态中提取的信息,通过填补缺失的信息来提高另一种模态的识别能力。

?

?

问题与方法

?

这项工作的关键问题是找出音频和视频流之间的对应关系。我们提出了一种耦合 3D 卷积神经网络架构,该架构可以将两种模式映射到一个表示空间中,并使用学到的多模态特征来判断视听流间的对应关系。

?

?

如何利用 3D 卷积神经网络

?

我们提出的该架构将结合时态信息和空间信息,来有效地发现不同模态的时态信息之间的相关性。我们的方法使用相对较小的网络架构和更小的数据集,并在性能上优于现有的视听匹配方法,而现有方法主要使用 CNN?来表示特征。我们还证明了有效的对选择(pair selection)方法可以显著提高性能。

?

?

代码实现

?

输入管道须由用户提供。其余部分的实现包含基于话语的特征提取的数据集。

?

?

唇语识别

?

就唇语识别来讲,必须将视频作为输入。首先,使用 cd 命令进入相应的目录:

?

640?wx_fmt=png

?

运行专用的?python file?如下:

?

640?wx_fmt=png

?

运行上述脚本,通过保存每个帧的嘴部区域来提取唇部动作,并在画框圈出嘴部区域来创建新的视频,以便进行更好的可视化。

?

所需的?arguments?由以下 Python 脚本定义,?VisualizeLip.py?文件中已定义该脚本:

?

640?wx_fmt=png

?

一些已定义的参数有其默认值,它们并不需要进一步的操作。

?

?

处理

?

视觉部分,视频通过后期处理,使其帧率相等,均为 30f/s。然后,使用 dlib 库跟踪视频中的人脸和提取嘴部区域。最后,所有嘴部区域都调整为相同的大小,并拼接起来形成输入特征数据集。数据集并不包含任何音频文件。使用 FFmpeg 框架从视频中提取音频文件。数据处理管道如下图所示:

?

640?wx_fmt=gif

?

?

输入管道

?

我们所提出的架构使用两个不相同的卷积网络(ConvNet),输入是一对语音和视频流。网络输入是一对特征,表示从 0.3 秒的视频中提取的唇部动作和语音特征。主要任务是确定音频流是否与唇部运动视频在所需的流持续时间内相对应。在接下来的两个小节中,我们将分别讲解语音和视觉流的输入。

?

?

语音网络(Speech Net)

?

在时间轴上,时间特征是非重叠的 20ms 窗口,用来生成局部的频谱特征。语音特征输入以图像数据立方体的形式表示,对应于频谱图,以及 MFEC 特征的一阶导数和二阶导数。这三个通道对应于图像深度。从一个 0.3 秒的视频剪辑中,可以导出 15 个时态特征集(每个都形成 40 个 MFEC 特征),这些特征集形成了语音特征立方体。一个音频流的输入特征维数为 15x40x3。如下图所示:

?

640?wx_fmt=gif

?

语音特征使用 SpeechPy 包进行提取。

?

要了解输入管道是如何工作的,请参阅:

?

code/speech_input/input_feature.py

?

?

视觉网络(Visual Net)

?

在这项工作中使用的每个视频剪辑的帧率是 30 f/s。因此,9 个连续的图像帧形成 0.3 秒的视频流。网络的视频流的输入是大小为 9x60x100 的立方体,其中 9 是表示时态信息的帧数。每个通道是嘴部区域的 60x100 灰度图像。

?

640?wx_fmt=jpeg

?

?

架构

?

该架构是一个耦合 3D 卷积神经网络,其中必须训练具有不同权重的两个网络。在视觉网络中,唇部运动的空间信息和时态信息相结合,以此来利用时间相关性。在音频网络中,提取的能量特征作为空间维度,堆叠的音频帧构成了时间维度。在我们提出的 3D 卷积神经网络架构中,卷积运算是在连续的时间帧上对两个视听流执行的。

?

640?wx_fmt=png

?

?

训练 / 评估

?

首先,克隆存储库。然后,用 cd 命令进入专用目录:

?

640?wx_fmt=png

?

最后,必须执行?train.py?文件:

?

?

640?wx_fmt=png

?

对于评估阶段,必须执行类似脚本:

?

640?wx_fmt=png

?

?

运行结果

?

下面的结果表明了该方法对收敛准确度和收敛速度的影响。

640?wx_fmt=png

?

最好的结果,也就是最右边的结果,属于我们提出的方法。

640?wx_fmt=png

?

所提出的在线对选择方法的效果如上图所示。

?

分析到这,希望大家可以到 Github 上找到源码,开始练起!附上作者给的代码演示。

?

DEMO 演示地址

1.Training/Evaluation :

/asciinema_org/a/kXIDzZt1UzRioL1gDPzOy9VkZ

2.Lip Tracking:

/asciinema_org/a/RiZtscEJscrjLUIhZKkoG3GVm

?

--【完】--

?

推荐阅读

申博现金网怎么样象棋人工智能算法的C++实现(三)——注重功能分区!

Google 全球员工围攻 Google!

全面梳理百度世界大会,李彦宏又新吹了几个牛!

她说:真的,没事别嫁程序员

中心化交易所弊端尽显,DEX时代即将到来?用户分析告诉你

2019秋招AI岗位竞争究竟有多激烈?

南开大学提出最新边缘检测与图像分割算法,精度刷新记录(附开源地址)

?

点击阅读原文,查看大会更多详情。2018 AI开发者大会——摆脱焦虑,拥抱技术前沿。

展开阅读全文

畅谈你心目中的开源技术 赢取开源技术大会门票

08-31

[url=/lopdev_csdn_net/][align=center][img=/img-bbs_csdn_net/upload/201508/31/1441005092_692321.jpg][/img][/align][/url]rnrn 2015年9月22日,由IBM举办的“[url=/lopdev_csdn_net/][color=#0000FF]开源重构世界 开发改变未来 Linux on Power生态系统联盟开发者大会[/color][/url]”上,来自开源的大咖们将共聚一堂,分享最新的前沿开源技术及行业应用案例,为中国的IT产业注入活力,帮助中国从事于开源技术的软件企业得到 源源不断的动力,也帮助中国开发者在国际舞台上扮演更加重要的角色。rnrn  此刻,CSDN携手IBM联合举办Linux on Power开源技术活动,[b] 以“我心目中的开源技术”为主题,谈谈您对开源技术的一些看法;中国的开源技术方向;目前开源领域的坑等等。[/b]rnrn  只要您在活动下方写出您的想法,内容在[b]200-300[/b]字,有视角,有观点。审核通过后即可获得价值[b][color=#FF0000]1200元的开源技术门票一张[/color]rnrn  即使不幸没有选中您的帖子,我们也将为您奉上IBM精美小礼品一份rnrn  【活动时间】[/b]rnrn  即日起—2015年9月15日rnrn  【[b]活动规则[/b]】rnrn  了解开源技术的您,一定对Linux on Power有所了解。回复本帖写出你对Linux on Power开源技术的个人想法,速速参与进来吧~rnrn  【[b]豪华大礼[/b]】rnrn  活动结束后,由CSDN为此次活动选取[color=#0000FF]50[/color]位开发者,每位开发者均将获得价值[b][color=#FF0000]1200元的“Linux on Power 生态系统联盟开发者大会”门票一张rn[/color][/b]rn  【[b]IBM精美小礼品[/b]】rnrn[align=center][img=/img-bbs_csdn_net/upload/201509/01/1441087724_204629.jpg][/img][/align]rn[align=center]IBM笔记本散热器[/align]rn[align=center][img=/img-bbs_csdn_net/upload/201509/01/1441087662_680320.jpg][/img][/align]rn[align=center]IBM 车载充电器[/align]rn[align=center][img=/img-bbs_csdn_net/upload/201509/01/1441087780_445068.jpg][/img][/align]rn[align=center]IBM精美耳机[/align]rn  【[b]大会亮点[/b]】rnrn  [b]亮点一:[color=#FF0000]高[/color]——顶级讲师汇聚rn[/b]rn  大会将邀请Spark核心开发者、Redis实验室联合创始人兼CEO 、MySQL、MariaDB联合创始人、Neo4j CTO、Redhat内核开发者等国外讲师。除此之外,国内更兼有CSDN、青云创始人参加。rnrn  [b]亮点二:[color=#FF0000]全[/color]——全技术链覆盖[/b]rnrn  会上,来自国内外的专家,将为我们分享来自最新的前沿开源技术、创新的行业应用,覆盖从编程语言、中间件、数据库、操作系统、基础硬件的主流开源技术。帮助中国从事于开源技术的软件企业得到源源不断的前进动力,也帮助中国开发者在国际化舞台上扮演更加重要的角色。rnrn  [b]亮点三:[color=#FF0000]深[/color]——深度应用[/b]rnrn[align=center][img=/img-bbs_csdn_net/upload/201508/31/1441002522_866508.jpg][/img][/align]rnrn  开源技术大牛面对面帮助中国企业把脉,推动开源技术在中国行业的深度应用;rnrn  [b]亮点四:[color=#FF0000]新[/color]——商业创新[/b]rnrn  凡在独立软件开发领域有技术专长以及可做应用迁移的开发商,将有机会获得IBM技术团软硬件体验及优惠政策支持。这是一场开源领域新晋IT独立软件开发商的大聚会,让你看到前所未有的商业创新。rnrn  [color=#0000FF][b]点击进入大会官网:[/b][/color]rnrn  [color=#0000FF][url=/lopdev_csdn_net/]/lopdev_csdn_net/[/url][/color] 论坛

没有更多推荐了,申博现金网怎么样

菲律宾太阳网上娱乐登入 菲律宾太阳网上娱乐登入 申博在线 菲律宾申博太阳城登入 www.99msc.com www.xpj8.com
申博在线开户登入 申博怎么申请提款 菲律宾申博现金网登入 申博游戏平台直营网 申博官网娱乐开户登入 旧版申博开户直营网
菲律宾申博娱乐官网 77msc申博登入 申博代理网登入 申博代理官网正网 申博开户网登入 申博真人游戏登入