斯坦福大学深度学习与自然语言处理第一讲：引言

首页 > 代码库 > 斯坦福大学深度学习与自然语言处理第一讲：引言

斯坦福大学深度学习与自然语言处理第一讲：引言

2024-09-06 20:56:50 217人阅读

斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程： CS224d: Deep Learning for Natural Language Processing ，授课老师是青年才俊 Richard Socher ，他本人是德国人，大学期间涉足自然语言处理，在德国读研时又专攻计算机视觉，之后在斯坦福大学攻读博士学位，拜师NLP领域的巨牛 Chris Manning 和Deep Learning 领域的巨牛 Andrew Ng ，其博士论文是《 Recursive Deep Learning for Natural Language Processing and Computer Vision 》，也算是多年求学生涯的完美一击。毕业后以联合创始人及CTO的身份创办了 MetaMind ，作为AI领域的新星创业公司，MetaMind创办之初就拿了800万美元的风投，值得关注。

回到这们课程CS224d,其实可以翻译为“面向自然语言处理的深度学习（Deep Learning for Natural Language Processing）”，这门课程是面向斯坦福学生的校内课程，不过课程的相关材料都放到了网上，包括课程视频，课件，相关知识，预备知识，作业等等，相当齐备。课程大纲相当有章法和深度，从基础讲起，再讲到深度学习在NLP领域的具体应用，包括命名实体识别，机器翻译，句法分析器，情感分析等。Richard Socher此前在ACL 2012和NAACL 2013 做过一个Tutorial， Deep Learning for NLP (without Magic) ，感兴趣的同学可以先参考一下: Deep Learning for NLP (without Magic) – ACL 2012 Tutorial – 相关视频及课件。另外，由于这门课程的视频放在Youtube上，@爱可可-爱生活老师维护了一个网盘链接： http://pan.baidu.com/s/1pJyrXaF ，同步更新相关资料，可以关注。

第一讲：引言-自然语言处理与深度学习简介(Intro to NLP and Deep Learning)

推荐阅读材料：

1、线性代数相关知识点回顾：[ Linear Algebra Review ]

2、概率相关知识点回顾：[ Probability Review ]

3、凸优化相关知识点回顾: [ Convex Optimization Review ]

4、优化相关的另一篇介绍（来自于斯坦福CS231课程资料），随机梯度下降相关[ More Optimization (SGD) Review ]

5、语义向量空间模型的一篇综述[ From Frequency to Meaning: Vector Space Models of Semantics ]

6、课程第一部分的Notes，涉及第一讲和第二讲[ Lecture Notes 1 ]

7、Python及numpy简介[ python tutorial ]

8、第一讲Slides[ slides ]

9、第一讲视频[ video ]

以下是第一讲的相关笔记，主要参考自课程的slides，视频和其他相关资料。

什么是自然语言处理（NLP）

自然语言处理是一门交叉学科，包括计算机科学，人工智能和语言学
目标：让计算机去处理或“理解”自然语言, 完成一些有用的任务例如问答系统，机器翻译
完全理解或者表示语言的意义（甚至去定义它）都是一个虚幻的目标
完美的理解语言是一个“ AI-complete ”的问题
自然语言处理的层次

自然语言处理的应用

应用范围从简单到复杂
拼写检查, 关键词提取&搜索，同义词查找&替换
从网页中提取有用的信息例如产品价格，日期，地址，人名或公司名等
分类，例如对教科书的文本进行分级，对长文本进行正负情绪判断
机器翻译
口语对话系统
复杂的问答系统

工业届里的NLP应用

搜索引擎
在线广告
自动的或辅助的翻译技术
市场营销或者金融交易领域的情感分析
语音识别

NLP为什么这么难

语言在表达上就很复杂，使用的时候要综合考虑使用情境
Jane hit June and then she [fell/ran].
歧义问题：“I made her duck”

什么是深度学习（DL）

深度学习是机器学习的一个分支
大多数机器学习方法很有效主要依靠人工精心设计的特征，例如下表是一个命名实体识别任务中设计的特征模板(Finkel, 2010)
最终这些机器学习问题会变成优化问题：优化这些特征权重以达到最好的预测效果

机器学习 vs 深度学习技术分享

什么是深度学习（DL）续

表示学习 or 表达学习（Representation Learning）尝试自动的学习合适的特征及其表征
深度学习（Deep Learning) 算法尝试学习（多层次）的表征以及输出
从一个“原生”的输入x(例如“单词”）

深度学习的历史

这门课主要关注至今为止在解决NLP问题上有效果的深度学习技术
关于深度学习模型的相关历史，推荐参考《 Deep Learning in Neural Networks: An Overview 》

探索深度学习的原因

人工设计的特征常常定义过多，不完整并且需要花费大量的时间去设计和验证
自动学习的特征容易自适应，并且可以很快的学习
深度学习提供了一个弹性的，通用的学习框架用来表征自然的，视觉的和语言的信息。
深度学习可以用来学习非监督的（来自于生文本）和有监督的（带有特别标记的文本，例如正向和负向标记）
在2006年深度学习技术开始在一些任务中表现出众，为什么现在才热起来？

(1)深度学习技术受益于越来越多的数据
(2) 更快的机器与更多核CPU/GPU对深度学习的普及起了很大的促进作用
(3)新的模型，算法和idea层出不穷

通过深度学习技术提升效果首先发生在语音识别和机器视觉领域，然后开始过渡到NLP领域

面向语音识别的深度学习

“深度学习”在大数据集上的第一个突破性进展发生在语音识别领域
Paper： Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition Dahl et al. (2010) 技术分享