深度学习

/diːp ˈlɜːrnɪŋ/

Also known as: deep neural networks, DNN, multilayer neural networks

research beginner

什么是深度学习?

深度学习是一种使用多层神经网络执行分类、回归和表示学习等任务的机器学习类型。深度学习中的”深度”指的是网络中使用多层——从三层到几百层或数千层。

这些网络旨在以松散受生物神经元启发的方式处理数据,将人工神经元堆叠成层并”训练”它们识别模式。如果网络在输入和输出之间至少有两个隐藏层,通常称为”深度”网络。

历史时间线

1943 年:Walter Pitts 和 Warren McCulloch 创建了第一个基于神经网络的计算机模型。

1965 年:Alexey Ivakhnenko 在苏联发布了第一个有效的深度学习算法(数据处理的分组方法)。

1979 年:Fukushima 引入了具有多层的早期卷积网络。

1985 年:Rumelhart、Hinton 和 Williams 证明反向传播可以产生有用的分布式表示。

1991 年:Sepp Hochreiter 识别了梯度消失问题,并与 Schmidhuber 一起提出了 LSTM(长短期记忆)。

2012 年:AlexNet 在 ImageNet 中的胜利彻底改变了计算机视觉并引发了现代深度学习时代。

2017 年:Transformer 架构重新定义了自然语言处理。

2022 年至今:大型语言模型(GPT、Claude、Gemini)和多模态模型占主导地位。

为什么 GPU 改变了一切

深度学习革命得益于视频游戏行业。现代游戏的复杂图像和快速节奏需要专门的硬件——图形处理单元(GPU)。研究人员发现,这些相同的芯片可以将神经网络训练加速几个数量级,使深度学习变得实用。

常见架构

  • 全连接网络:每个神经元都连接到相邻层中的所有神经元
  • 卷积神经网络(CNN):专门用于图像处理
  • 循环神经网络(RNN):处理顺序数据
  • Transformer:为现代大语言模型提供动力的基于注意力的架构
  • 生成对抗网络(GAN):两个网络竞争以生成逼真的输出

三位先驱

深度学习的现代成功通常归功于三位研究人员,他们在”AI 冬天”期间坚持下来,当时这种方法不受欢迎:

  • Geoffrey Hinton - “AI 教父”,反向传播先驱
  • Yann LeCun - 发明了卷积网络,现在在 Meta
  • Yoshua Bengio - 推进了循环网络,专注于 AI 安全

三人都因其贡献获得了 2018 年图灵奖。

为什么重要

深度学习将 AI 从基于规则的系统转变为从数据中学习的系统。在深度学习之前,工程师必须手动为识别任务指定特征。深度网络自动学习这些特征,在以下领域实现突破:

  • 计算机视觉(图像识别、自动驾驶汽车)
  • 自然语言处理(翻译、聊天机器人、大语言模型)
  • 语音识别(语音助手)
  • 游戏玩法(AlphaGo、国际象棋引擎)
  • 科学发现(蛋白质折叠、药物发现)

相关阅读