spring's Blog

游龙当归海，海不迎我自来也。

2020-07-21
- nlp
LDA主题模型

LDA(Latent Dirichlet Allocation, 隐含狄利克雷分布)是一种主题模型，将文档集中每篇文档的主题以概率分布的形式给出。LDA模型是一种词袋(bag-of-words)模型，也就是把一篇文档看作是一组词的集合，而不考虑词与词之间的先后顺序关系。阅读全文…
2020-07-20
- nlp
NLP中的文本表示与词向量

文本表示是将文本中的字词进行数值化或向量化表示。文本表示是各种NLP任务的基础。如何将一篇文本用数学语言来表示呢？下面对不同的文本表示方法做一个归纳：离散式表示(Discrete Representation): one-hot向量表示。 tf-idf 分布式表示(Distributed Representation): 阅读全文…
- TextRank
- 词向量
2020-07-13
- nlp
文本相似度的计算方法

在nlp任务中，我们常常需要判断两个文本的相似程度，计算这两个文本的相似度。比如，在文本聚类任务中，需要将相似度高的文本聚到同一个簇；在文本预处理过程中，基于文本相似度把重复的文本过滤掉；在检索式对话系统中，通过计算用户的query与数据库中的query的相似度，来选择回复。文本相似度计算有2个关键组件：文本表示模型和相似度度量方法。文本表示模型负责将文本表示为可计算的数值向量，也就是提供特征；相似度度量方法负责基于数值向量计算文本之间的相似度。阅读全文…
- jaccard相似度
2020-07-06
- nlp
常见的文本聚类算法

文本聚类就是把一些没有标签的，但有相同特征的数据聚在一起。聚类模型将样本划分为若干个簇(cluster)，每个簇对应一些潜在的概念或类别。阅读全文…
2020-06-22
- 信息检索
布尔检索

信息检索的含义是非常广泛的，在学术界将其定义为：在海量数据中找到符合信息需要的文档或文本。信息检索可以按照操作规模分为三类：网页搜索、个人信息搜索、企业或特定领域的搜索。网页搜索：提供了给存放在百万台电脑上的百亿篇文档的搜索服务。网页搜索特有的问题是需要爬取收集建索引的海量文档，并且在海量文档尺度上建立高效的搜索系统。另外，还需要处理一些网页特有的问题，比如超链接的爆炸性增长。 ... 阅读全文…
- 信息检索
- 倒排索引
2020-02-13
- 技术资料
pySpark学习笔记

pyspark下载与环境设置前提：安装pyspark之前，要检查电脑是否安装了JAVA环境，可以用命令java -version来查看。参考链接：Centos下JDK的安装与卸载 Centos下JDK的安装查看yum库中有哪些可用的JDK版本：yum search java | grep jdk。选择版本安装JDK，可以用yum install java-1.8.0-openjd... 阅读全文…
- pySpark
2020-02-11
- 技术资料
Hadoop学习笔记

Hadoop是一个开源框架，允许在跨计算机的分布式环境中来存储和处理数据。阅读全文…
- HDFS
- Hadoop
2020-01-13
- 年度总结
2019-蓟门烟树

这是在明光桥北度过的第二个冬天，已经下了两三场大雪，雪后的天空格外晴朗。又到了一年的末尾，没有经常写日记，只能从朋友圈、论坛发的骑行贴、日记本上不多的几篇日记，印象笔记上的记录来尽力回忆这一年是如何度过的。回首这一年，平凡普通，不惊心动魄，有些许遗憾，也有一些小的闪光和美好。北京的雪阅读全文…
- 年度总结
- 生活记录
2020-01-07
- 论文
论文笔记《Large-Scale Transfer Learning for Natural Language Generation》

【来源】ACL2019【链接】https://www.aclweb.org/anthology/P19-1608.pdf【代码】未公布阅读全文…
2020-01-06
- 论文
论文笔记《A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data》

【来源】AAAI2020【链接】https://arxiv.org/abs/1911.04700【代码】未公布阅读全文…