归档: 2019

Pagerank 实现文本摘要

pagerank 实现文本自动摘要一 分句 使用正则将文档按照标点符号或其它符号进行分句,成为列表形式。 二 分词,去掉停用词 使用jieba分词将列表中的每个句子分词,并去掉停用词。这一步,还有词的向量化 可使用sklearn中的CountVectorizer函数一并实现。 词的向量化和tf-idf TFIDF 是个什么鬼 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一