- What is Natural Language Processing?
- What’s special about human language?
- What’s Deep Learning?
- Why is NLP hard?
- Deep NLP = Deep Learning + NLP
What is Natural Language Processing?
- 自然语言处理是计算机科学、人工智能以及语言学的交叉学科
- 自然语言处理的目标是让计算机理解人类语言,以完成有意义的任务,如机器翻译或QA等。
- NLP Levels
- speech or text annlysis
- morphological analysis,形态分析
- syntactic analysis,句法分析
- semantic interpretation,语义分析
- discourse processing,对话处理(理解上下文)
What’s special about human language?
- 人类语言是一种离散/符号/类别信号系统
What’s Deep Learning?
- 深度学习是机器学习的一种
- 机器学习需要人工设计特征,然后把特征交给某个机器学习算法,机器为这些特征调整找到合适的权值,以生成最合适的模型;事实上,在这一过程中,是人类在学习,而机器只不过是解数值优化的题目而已。
- Machine Learning in Practice = Describing your data with features a computer can understand (Domain specific, requires Ph.D. level talent) + Learning algorithm (Optimizing the weights on features)
- 表征学习(Representation Learning)是指通过对原始数据的学习,自动生成特征。
- 深度学习是表征学习的一部分,使用多层的表征学习(learned representations),故称为深度学习。
Reasons for Exploring Deep Learning
- 人工构建特征往往过去具体,而且需要大量时间去设计和验证
- 学习特征自适应能力强,而且学习速度快
- 能处理监督以及无监督问题
- 使人们兴奋的最大原因是,it work!效果优于传统机器学习
- 大量训练数据
- CPU/GPU硬件资源的提升
Why is NLP hard?
人类语言充满歧义
人类语言非常简练,省略了大量背景知识,not saying many thing
The Pope’s baby steps on gays
Deep NLP = Deep Learning + NLP
近年来的研究进展
- Levels:语音、词汇、语法、语义
- Tools:词性标注、命名实体识别、句法/语义分析
- Applications:机器翻译、情感分析、客服系统、问答系统
语义 Semantics
- 传统:Lambda calculus,手写大量规则
- DL:每个短语、句子、逻辑表述都是向量
情感分析
- 传统:构建情感极性词典
QA
- 传统:大量逻辑规则
机器翻译
- 传统:在许多层级上进行尝试,试图找到一种世界通用的”国际语“作为翻译桥梁
- DL:以Vector为翻译桥梁