2020-07-21 nlp LDA主题模型 LDA(Latent Dirichlet Allocation, 隐含狄利克雷分布)是一种主题模型,将文档集中每篇文档的主题以概率分布的形式给出。LDA模型是一种词袋(bag-of-words)模型,也就是把一篇文档看作是一组词的集合,而不考虑词与词之间的先后顺序关系。 阅读全文…
2020-07-20 nlp NLP中的文本表示与词向量 文本表示是将文本中的字词进行数值化或向量化表示。文本表示是各种NLP任务的基础。如何将一篇文本用数学语言来表示呢?下面对不同的文本表示方法做一个归纳: 离散式表示(Discrete Representation): one-hot向量表示。 tf-idf 分布式表示(Distributed Representation): 阅读全文…
2020-07-13 nlp 文本相似度的计算方法 在nlp任务中,我们常常需要判断两个文本的相似程度,计算这两个文本的相似度。比如,在文本聚类任务中,需要将相似度高的文本聚到同一个簇;在文本预处理过程中,基于文本相似度把重复的文本过滤掉;在检索式对话系统中,通过计算用户的query与数据库中的query的相似度,来选择回复。文本相似度计算 有2个关键组件:文本表示模型 和 相似度度量方法。文本表示模型 负责将文本表示为可计算的数值向量,也就是提供特征; 相似度度量方法负责基于数值向量计算文本之间的相似度。 阅读全文…
2020-06-22 信息检索 布尔检索 信息检索的含义是非常广泛的,在学术界将其定义为:在海量数据中找到符合信息需要的文档或文本。信息检索可以按照操作规模分为三类:网页搜索、个人信息搜索、企业或特定领域的搜索。 网页搜索: 提供了给 存放在百万台电脑上的百亿篇文档的搜索服务。网页搜索特有的问题是 需要爬取收集建索引的海量文档,并且在海量文档尺度上建立高效的搜索系统。另外,还需要处理一些网页特有的问题,比如超链接的爆炸性增长。 ... 阅读全文…
2020-02-13 技术资料 pySpark学习笔记 pyspark下载与环境设置前提: 安装pyspark之前,要检查电脑是否安装了JAVA环境,可以用命令java -version来查看。参考链接:Centos下JDK的安装与卸载 Centos下JDK的安装 查看yum库中有哪些可用的JDK版本:yum search java | grep jdk。 选择版本安装JDK,可以用yum install java-1.8.0-openjd... 阅读全文…
2020-01-13 年度总结 2019-蓟门烟树 这是在明光桥北度过的第二个冬天,已经下了两三场大雪,雪后的天空格外晴朗。又到了一年的末尾,没有经常写日记,只能从朋友圈、论坛发的骑行贴、日记本上不多的几篇日记,印象笔记上的记录来尽力回忆这一年是如何度过的。回首这一年,平凡普通,不惊心动魄,有些许遗憾,也有一些小的闪光和美好。 北京的雪 阅读全文…
2020-01-07 论文 论文笔记《Large-Scale Transfer Learning for Natural Language Generation》 【来源】ACL2019【链接】https://www.aclweb.org/anthology/P19-1608.pdf【代码】未公布 阅读全文…
2020-01-06 论文 论文笔记《A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data》 【来源】AAAI2020【链接】https://arxiv.org/abs/1911.04700【代码】未公布 阅读全文…