「自然语言处理」领域的优质资料
🎈本文持续更新中…
1 技术
词嵌入
- BERT相关论文、文章和代码资源汇总
- NLP︱高级词向量表达
- fastText原理及实践
- 漫谈Word2vec之skip-gram模型
- 自然语言处理与深度学习: 集智俱乐部活动笔记
- AAAI 2018 | 蚂蚁金服公开最新基于笔画的中文词向量算法
- word2vec 中的数学原理详解
- 理解GloVe模型
- word2vec前世今生
- 深度学习word2vec笔记之算法篇
- word2vec 中的数学原理详解
- Word embedding综述与回顾(之一)—word2vec模型与PMI分解
- Deep Learning in NLP (一)词向量和语言模型
- The Annotated Transformer
- The Illustrated Transformer
- 从 Word2Vec 到 BERT
- GPT 的野望
分词
- 互联网时代的社会语言学:基于SNS的文本数据挖掘
- 有哪些比较好的中文分词方案? - 竹间智能 Emotibot的回答 - 知乎
- 常用的开源中文分词工具
- NLP三大Subword模型详解:BPE、WordPiece、ULM
对话系统
- 使用Botkit和Rasa NLU构建智能聊天机器人
- 用Rasa NLU构建自己的中文NLU系统
- 自然语言理解-从规则到深度学习
- 填槽与多轮对话 | AI产品经理需要了解的AI技术概念
- 对话管理的一些思考
- 多轮对话之对话管理(Dialog Management)
- 记忆网络之在对话系统中的应用
- Dialog System 总结
- 基于知识图谱的人机对话系统 | 公开课笔记
命名实体识别
信息检索
数学相关
文本分类
阅读理解
情感分析
概率图模型
- BiLSTM上的CRF,用命名实体识别任务来解释CRF(1)
- BiLSTM上的CRF,用命名实体识别任务来解释CRF(2)损失函数
- BiLSTM上的CRF,用命名实体识别任务来解释CRF(3)推理
- BiLSTM上的CRF,用命名实体识别任务来解释CRF(4)
知识图谱
2 数据集
- 数据集-AI研习社
- ChineseNlpCorpus
- CLUEDatasetSearch
- Google 数据集
- Huggingface数据集
- Kaggle 数据集
- Paper With Code 数据集
- Reddit 数据集
- CLUE 数据集
- Machine learning datasets
- Awesome Public Datasets
- Data Is Plural
MS MARCO
- 简介:人工生成的机器阅读理解数据集,来自微软,2016。
- 论文:https://arxiv.org/abs/1611.09268
- 数据:http://www.msmarco.org/
NewsQA
- 简介:Maluuba 的机器理解数据集,2016。
- 论文:https://arxiv.org/abs/1611.09830
- 数据:https://github.com/Maluuba/newsqa
SQuAD
- 简介:超过 100,000 个问题和其机器理解文本的数据集,由斯坦福大学推出,2016。
- 论文:https://arxiv.org/abs/1606.05250
- 数据:https://rajpurkar.github.io/SQuAD-explorer/
CNN-DailyMail
- 简介:用于训练机器进行阅读理解任务的数据集,2015。
- 论文:https://arxiv.org/abs/1506.03340
- 代码:https://github.com/deepmind/rc-data
- 数据:http://cs.nyu.edu/~kcho/DMQA/
SimpleQuestions
- 简介:大量使用记忆网络的简单问答数据,2015。
- 论文:https://arxiv.org/pdf/1506.02075.pdf
- 数据:https://research.fb.com/downloads/babi/
WikiQA
- 简介:一个开放问题与回答的挑战数据集,由微软推出,2015。
- 论文:https://www.microsoft.com/en-us/research/publication/wikiqa-a-challenge-dataset-for-open-domain-question-answering/
- 数据:https://www.microsoft.com/en-us/download/details.aspx?id=52419
Ubuntu Dialogue Corpus
- 简介:一个用于非结构化多回路对话系统研究的大型数据集,2015。
- 论文:https://arxiv.org/abs/1506.08909
- 数据:https://github.com/rkadlec/ubuntu-ranking-dataset-creator
Dialog State Tracking Challenge 2 & 3
- 简介:对话状态跟踪挑战(Dialog State Tracking Challenge)2 和 3,2013。
- 论文:http://camdial.org/~mh521/dstc/downloads/handbook.pdf
- 数据:http://camdial.org/~mh521/dstc/
3 其他
博客
研究组
- 清华大学自然语言处理与社会人文计算实验室
- 哈工大社会计算与信息检索研究中心
- 中科院计算所自然语言处理研究组
- 苏州大学人类语言技术研究所
- 东北大学自然语言处理实验室
- 南京大学自然语言处理研究组
- 大连理工大学信息检索研究室
大佬
图书
资料
- NLP民工的乐园
- 初入NLP领域的一些小建议
- 如何写一篇合格的NLP论文
- 自然语言处理(NLP)入门学习资源清单
- 如何成为一名自然语言处理工程师
- NLP, 知识图谱学习资源
- 如何解决90%的NLP问题
- 深度学习NLP最佳方法
- NLP-Beginner:自然语言处理入门练习
- 当前自然语言处理发展的四个特点
- 打破BERT天花板:11种花式炼丹术刷爆NLP分类SOTA!
- 阿里巴巴副总裁司罗:达摩院如何搭建NLP技术体系?
- NLP学习指南
- 200个国内外经济/金融/行研/咨询数据网站大全