快捷搜索:  汽车  科技

语义分割边缘检测(93年演示首个文本识别CNN冲上Reddit热榜)

语义分割边缘检测(93年演示首个文本识别CNN冲上Reddit热榜)演示视频中,系统快速且精准地识别出了手写数字210-949-4038。据说,这是LeCun在贝尔实验室的电话号码。20世纪90年代初,LeCun加入了当时世界上最负盛名的研究机构之一贝尔实验室。彼时才32岁的他,与同事们创建了一个读取并识别手写数字的系统,该系统是一个典型的端到端图像识别系统。有网友评论称,在演示之前,像通用人工智能(AGI)和其他难题一样,这种文本识别被认为是不可能的完成的。还有不少网友留言称,他们是真正的工程师、向他们致敬!据悉,这则视频展示了世界上首个用于文本识别的卷积神经网络,是之后CNN被广泛应用于计算机视觉、自然语言处理领域的重要开端。

提到卷积神经网络大家可能并不陌生。

它是深度学习(Deep Learning)的经典算法之一,自20世纪90年代以来,其在计算机视觉、自然语言处理领域不断取得惊人的结果。

卷积神经网络(Convolutional Neural Networks,CNN)首次被用于文本识别演示是在1993年的贝尔实验室(AT&T Bell Laboratories),其的演示者是有“CNN之父”之称的Yann LeCun。

今天,LeCun在当年的演示视频再次被网友们挖出,并迅速登上了Reddit热搜,收获了近千人点赞。

语义分割边缘检测(93年演示首个文本识别CNN冲上Reddit热榜)(1)

有网友评论称,在演示之前,像通用人工智能(AGI)和其他难题一样,这种文本识别被认为是不可能的完成的。

语义分割边缘检测(93年演示首个文本识别CNN冲上Reddit热榜)(2)

还有不少网友留言称,他们是真正的工程师、向他们致敬!

语义分割边缘检测(93年演示首个文本识别CNN冲上Reddit热榜)(3)

据悉,这则视频展示了世界上首个用于文本识别的卷积神经网络,是之后CNN被广泛应用于计算机视觉、自然语言处理领域的重要开端。

CNN:手写数字识别任务

20世纪90年代初,LeCun加入了当时世界上最负盛名的研究机构之一贝尔实验室。彼时才32岁的他,与同事们创建了一个读取并识别手写数字的系统,该系统是一个典型的端到端图像识别系统。

语义分割边缘检测(93年演示首个文本识别CNN冲上Reddit热榜)(4)

演示视频中,系统快速且精准地识别出了手写数字210-949-4038。据说,这是LeCun在贝尔实验室的电话号码。

另外,它在处理更密集更多样的数字识别任务时也表现出了良好性能,这在90年代是非常难能可贵的。

语义分割边缘检测(93年演示首个文本识别CNN冲上Reddit热榜)(5)

语义分割边缘检测(93年演示首个文本识别CNN冲上Reddit热榜)(6)

视频中,参与这项实验的研究人员还有实验室负责人Rich Howard、和计算机专家Donnie Henderson。

语义分割边缘检测(93年演示首个文本识别CNN冲上Reddit热榜)(7)

据了解,这项代码开发主要是为了应用于NCR(National Cash Register Coporation)的支票读取系统。

总体而言,由于数值计算能力有限、学习样本不足,加上同一时期以支持向量机(Support Vector Machine SVM)为代表的核学习(kernel learning)方法的兴起,这一时期为各类图像处理问题设计的卷积神经网络还停留在实验室研究阶段。

不过,到了1998年,Yann LeCun及其合作者共同构建了更加完备的卷积神经网络LeNet-5,并在手写数字的识别问题中取得了进一步的成功。截止90 年代末期,该系统已经处理了美国 10%-20%的支票识别。

其实,LeNet-5神经网络早在1989年已经被LeCun提出。LeNet的最初版本包含两个卷积层,2个全连接层,共计6万个学习参数,规模远超TDNN和SIANN,且在结构上与现代的卷积神经网络十分接近 。

值得一提的是,LeCun 在1989年发表的《使用反向传播和神经网络识别手写数字》的论文中,在论述其网络结构时首次使用了“卷积”一词,“卷积神经网络”由此诞生,之后LeCun便被业内称为“CNN之父”。

MNIST数据集

基于这项实验,LeCun还创建了经典手写数据集MNIST,它是用于研究机器学习、模式识别等任务的高质量数据库,被Hinton称为“机器学习界的果蝇”。

语义分割边缘检测(93年演示首个文本识别CNN冲上Reddit热榜)(8)

MNIST 手写数字图像数据集作为机器学习基准已经使用了二十余年。它包含训练集和测试集,训练集包含 60000 个样本,测试集包含 10000 个样本,每个样本都是一张28 * 28像素的灰度手写数字图片。

语义分割边缘检测(93年演示首个文本识别CNN冲上Reddit热榜)(9)

MNIST数据集包含各种(0~9)手写数字

据悉,MNIST 数据集抽取自 NIST 数据库。其中的训练数据来自2000 名人口普查局雇员的手写字符,测试数据来自500名在校生的手写字符。由于测试集样本较少,MNIST很难再提供有意义的置信区间。2019年6月,来自 Facebook 和纽约大学的研究者对该数据集进行了扩展和重建,在测试集中新增了50000 个样本。对此,LeCun在推特上转发称,这个新数据集重生、恢复、扩展了MNIST。

目前该数据集包括以下四个文件内容:

语义分割边缘检测(93年演示首个文本识别CNN冲上Reddit热榜)(10)

手写数字识别是计算机视觉领域的一个基本项目,相当于传说中机器学习入门的“Hello World”,因此MNIST数据集也被开发者广泛使用。

深度学习之父Yan LeCun

自1998年之后,LeCun一直深耕于深度学习领域,还发表了多项重要论文,如OverFeat检测框架、CNN用于立体匹配、DropConnect方法等,总引用量超过了100000 。

2015年,他与蒙特利尔大学教授Yoshua Bengio、谷歌副总裁兼工程研究员Geoffrey Hinton合著发表了《深度学习》的综述论文,并登上了Nature。

LeCun是CNN的重要推动者。2018年,Yann因“将反向传播算法引入了CNN(卷积神经网络),并且发明了权值共享、池化等技巧,让CNN真正更为可用”还获得了ACM(Association for ComputingMachinery, 国际计算机协会)颁发的2018图灵奖。

语义分割边缘检测(93年演示首个文本识别CNN冲上Reddit热榜)(11)

在宣布获奖者时,ACM学会称三位计算机科学家为“深度学习革命之父”,并指出,“三位科学家在概念和工程学方面取得的突破,让深度神经网络成为计算的关键部分”。

图灵奖有“计算机界的诺贝尔奖”之称,由英国数学家艾伦·图灵名字而来——因其发明了最早的人造计算机模型“图灵机”。与之共同获奖的还有Yoshua Bengio、Geoffrey Hinton。

值得一提的是,Hinton还是LeCun在多伦多大学读博期间师的导师。Hinton主要研究使用神经网络进行机器学习、记忆、感知和符号处理的方法。当时的深度神经网络学科是个大冷门,LeCun对神经网络的研究受到了Hinton的不少的指导和帮助。

除此之外,LeCun还曾获得IEEE神经网络先驱奖(2014)、IEEE PAMI杰出研究员奖(2015)。目前他是纽约大学数据科学中心创办主任、Facebook副总裁兼首席人工智能科学家。

在2020 AAAI 协会上,LeCun针对AI的未来发表了名为《Self-Supervised Learning》的主题演讲,他认为深度学习已至瓶颈,而自监督学习才是AI的光明前景。他说,虽然在自动驾驶、语言翻译、聊天机器人等方面,深度学习方法有着一席之地,但是却无法创作出「真正的」人工智能。

而自监督学习因为能更接近人类的学习程序,将会是未来的发展趋势。

引用链接:

https://www.reddit.com/r/MachineLearning/comments/kuc6tz/d_a_demo_from_1993_of_32yearold_yann_lecun/

https://youtu.be/uXt8qF2Zzfo

雷锋网雷锋网雷锋网

猜您喜欢: