北大开源中文分词工具pkuseg我用张小龙的3万字演讲做了统计

做过搜索的同学都知道,分词的好坏直接决定了搜索的质量,在英文中分词比中文要简单,因为英文是一个个单词通过空格来划分每个词的,而中文都一个个句子,单独一个汉字没有任何意义,必须联系前后文字才能正确表达它

»

Python 知识点思维导图

来源 | Python学习联盟 本文主要涵盖了 Python 编程的核心知识(暂不包括标准库及第三方库)。 1. 按顺序依次展示了以下内容的一系列思维导图:基础知识,数据类型(数字

»

二十个正则表达式

正则表达式,是一个强大且高效的文本处理工具。通常情况下,通过一段表达准确的表达式,能够非常简短、快速的实现复杂业务逻辑。

»

从豆瓣的反爬说说自建代理池

爬过豆瓣的同学应该都有过这样的经历,一开始爬取的过程挺正常的,但爬着爬着就不能获取到数据了。这是因为豆瓣对IP作了限制,如果短时间内来自同一个IP的请求太多,就会禁止来自这个IP的访问,我们的爬虫也就

»

python 生成18年写过的博客词云

回看18年,最有成就的就是有了自己的 博客网站,坚持记录,写文章,累计写了36篇了,从一开始的难以下手,到现在成为一种习惯,虽然每次写都会一字一句斟酌,但是每次看到产出,内心还是开心的,享受这样的过程。

»