人民网

人民网>>财经>>财经专题>>中日技术产业信息网

“深度学习”——让计算机更接近人类

2013年05月06日00:39    来源:人民网-财经频道

【相关新闻】

袖珍数码相机如何突破困境挑战智能手机?

微软与鸿海就安卓等系统使用的专利签署授权协议

日本法院就谷歌搜索建议功能下达禁令

富士胶片开发可帮助医生通过智能手机随时诊病的系统

宾得理光发布APS-C画幅卡片机“GR”

被称为“深度学习”的人工智能技术如今备受关注。为了大幅提升图像和语音的识别精度,谷歌等企业正在进行研究。这项技术还有望在经济动向预测和新药开发等领域发挥威力。

最近1~2年,有一项技术受到了全世界人工智能研究人员的密切关注。这种新方法名叫“深度学习”,是一种让计算机像人类一样根据经验采取行动的机器学习方式。

支撑互联网社会的图像识别和语音识别,有助于新药开发的化合物活性预测——在此类技术角逐精度的大赛上,深度学习大幅改写过去的纪录,一次又一次赢得了胜利。

“真不相信精度能得到如此飞跃。” “结果太震撼了”。专家的惊叹之声不绝于耳。

深度学习是由在计算机上模拟人类神经回路的“神经元网络”技术发展而来。

人脑在根据图像判断图上物品的种类、根据手头信息预测未来上面拥有优秀的能力。

神经元网络是在计算机上把虚拟的神经元排列成层状,模拟真正的神经细胞之间的电信号。借此实现大脑从各式各样的数据中提取本质概念的功能。

深度学习的目的是把神经元“深化”到4层、5层,实现接近于大脑的性能。

神经元网络研究的历史悠久,可以追溯到1950年代。但是,由于增加神经元的层数后,会出现性能降低等问题,因此,研究一直处于兴盛与衰退的反复交替过程。

然而,到了2000年代中期,美国的研究人员开发出了攻克这一课题的计算技术。再加上能够处理大数据的计算机的进步,深度学习的研究拉开了序幕。

2012年6月,美国谷歌与美国斯坦福大学合作发表的成果成为了让世界了解深度学习威力的开端。

谷歌把取自视频网站“YouTube”的大量图像输入到了神经元网络之中。结果,在没有教授任何知识的情况下,计算机自然产生了“猫”的概念。

识别精度提高7成

谷歌的研究员杰夫·迪恩(Jeff Dean)解释说:“我们的研究就像是给刚出生的婴儿看大量的YouTube图像。”下面,笔者就以该公司的研究为例,解释一下深度学习的原理。

谷歌在计算机上制作了深达9层的神经元。第1层是“输入层”,第2~8层是“隐藏层”,第9层是“输出层”。

输入层的神经元从输入图像上读取各像素的值,把信号传导至第2层的各个神经元。第2层的神经元根据某种规则,对第1层传导来的信号进行转换,然后输出到第3层。在第3层到输出层之间,输出信号按照同样的步骤,逐层向下传递。

重点是在输入每一幅图像时,各神经元的连接方式都会发生细微的改变。向神经元网络输入图像后,各神经元在接收信号,进行转换之时,相关的参数将得到调整,使整体的信号传导方式发生改变。也就是网络慢慢得到“训练”。

在谷歌的研究之中,参数约为10亿个,数量相当庞大。该公司向如此巨大的网络输入了从1000万个YouTube视频中截取的图像。通过1.6万个CPU(中央运算处理装置)并用的大规模计算,耗费1周时间实施了训练。

训练结束后,神经元网络的内部形成了不可思议的构造。各神经元会分别对不同的特定种类输入信号做出特别强烈的反应(放电)。

这与人脑内的神经细胞对人的相貌、物体等特定物体和概念做出反应并放电的原理相同。也就是说,人通过学习和经验形成的神经回路构造在计算机中得到了重现。

各神经元识别的对象因层的深度而异。靠近输入层的第2层的神经元对图像中的边缘、弯曲等单纯的形状和概念做出反应。随着向第3层、第4层的不断深入,神经元捕捉的概念将愈发高深、抽象。在输入动物面部的图像时,这些层负责识别眼睛、耳朵等构造,以及面部整体。

根据谷歌的研究,位于最后的输出层的1个神经元已经可以自然地识别出猫脸。在看到包含猫脸的图像后,这个神经元的反应最为强烈。

在美国谷歌的研究中,让识别猫的神经元做出了最强反应的猫的头像。

当然,可以识别的并不只是猫。人、汽车和长颈鹿等各种事物都可以进行识别。包括人类难以区分的鳐和蝠鲼在内,在对大约2万个种类进行识别精度调查后,结果显示,识别率达到了16%,比过去的最高纪录高出了约7成。

谷歌已经把深度学习的技术运用到了该公司的语音识别服务之中。今后还考虑在图像识别和视频搜索等用途投入实用。谷歌的迪恩充满期待地表示:“计算机与人类的新式人机对话将成为可能。”

 

(责编:值班编辑、庄红韬)

新闻查询  

新闻回顾

      搜索

产业/经营更多>>

能源/环境更多>>

机械/汽车更多>>

数码/IT更多>>

电子/半导体更多>>

工业设计更多>>