上一章我们已经了解到了beautifulsoup的基本知识,那么这一章,就用beautifulsoup真实的爬取一个网站。由于外部环境的复杂性,或者反爬虫机制,或者其他原因,爬取一个真实的网站会有各种不稳定的问题。为了既能真实,又能稳定,我觉得就做一个爬取我自己博客信息的小爬虫。
beautifulsoup, 翻译过来就是美丽的汤。 抄一段官方介绍如下:
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。这篇文档介绍了BeautifulSoup4中所有主要特性,并且有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要的效果,和处理异常情况. 文档中出现的例子在Python2.7和Python3.2中的执行结果相同。你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,我们推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4。
近期因为项目原因,需要搞搞爬虫了,那么我就随大流,选择python了。不过我自己也是python新手,所以边学边用了。
首先给自己科普一下python如何安装,然后记录一些python的基础知识,版本管理之类的问题,然后根据学习进度,一步一步记录工作进展。
整个项目使用爬虫爬取某些网站内容,然后进行分析,最后得出一些分析结果。
下面进入文章综(chao)述(xi)时间
简单说,Docker是一个容器管理器。
百度百科说:Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。
Dcoker使得用户可以将应用与其依赖包共同打包到一个标准化的单元中。