博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫建站入门手记——从零开始建立采集站点(一:环境搭建)
阅读量:6988 次
发布时间:2019-06-27

本文共 1427 字,大约阅读时间需要 4 分钟。

从今天起,我将在这里更新一个系列的python简单爬虫到建立网站的实践手记

内容将会从最简单的开始,环境搭建,基本爬虫,入库,用Django建立可供用户访问的网站,网站部署。

同时打算涉及简单的异步爬虫,piplibe,队列等等。

为了方便,将使用django和sqlite3来作为例子, 虽然有时候这并不是最合适的场景。。

最终目的:一个能用的自动更新的垃圾站

下面进入正题。

第一部分,买VPS,装环境。

本文的一切操作都在vps上

在Runabove建立最便宜的instance.

Screenshot-from-2015-02-06-234205.png

选择魁省机房-Sandbox-M-Ubuntu14.10-输入Instace名字"PythonSpider"-FireUp!

不出一分钟,VPS就建立好了。

VPS RUNNING

用SSH 连接服务器

SSH1

先建立一个screen,顺手更新apt-get,以后都在这里面操作,避免掉线导致任务中断。

bashscreen -S spider # 取名叫spider的screensudo apt-get updatesudp apt-get upgrade

再顺手安装一些肯定会用的东西

bashsudo apt-get install gcc python-dev -ysudo - #这一步以后,用户就是root了 记住nginx=stable # use nginx=development for latest development versionadd-apt-repository ppa:nginx/$nginxapt-get updateapt-get install nginx -yapt-get install libxml2-dev libxslt1-dev lib32z1-dev -y

装pip和virtualenv

bashwget https://bootstrap.pypa.io/get-pip.pypython get-pip.pypip install virtualenv

建立~/venv目录,建立virtualenv, 激活virtualenv

bashmkdir ~/venvcd ~/venvvirtualenv spidersource ~/venv/spider/bin/activate

之后,shell提示符应该是这样

SSH2

安装django(1.7)

bashpip install djangocd ~ # 返回用户目录

5秒钟后,django安装完毕,现在开始建立项目目录(Django的project)。我们爬虫站点的所有文件都放在里面。

bashdjango-admin startproject python_spider

再测试下安装是否成功

bashservice nginx stop # 为毛? 因为RunAbove的8000神马的端口不好用python manage.py runserver 0.0.0.0:80 # 只能用80,真蛋疼

现在访问192.99.71.91,我就能看到Django的示例页面

Django1
没骗你吧? 好了,看一眼能用就ctrl+c把服务器关掉。

然后,再建立一个app

bashcd python_spiderpython manage.py startapp web

所以,现在我有一个Django项目,叫python_spider, 它里面有个app叫web.

未完待续。。。(点击下面阅读)

转载地址:http://kpzvl.baihongyu.com/

你可能感兴趣的文章
vue.js中使用d3.js画家谱关系图
查看>>
python实现跨文件全局变量的方法
查看>>
禁用arcgis security service
查看>>
火狐ssl_error_weak_server_ephemeral_dh_key解决办法
查看>>
Mysqlslap性能测试
查看>>
SQLmap使用tamper绕过WAF防火墙过滤
查看>>
无法连接SQL SERVER 2008 的问题
查看>>
老生常谈:ie6下,a标签href设置javascript:void(0);后绑定的click失效
查看>>
常见经典排序算法
查看>>
性能测试培训:定位jvm耗时函数
查看>>
Linux 命令符下安装Oracle
查看>>
it翘楚-兄弟连兄弟会
查看>>
超棒的CSS开源UI界面元素类库 - TopCat
查看>>
javaExecutors并发线程池ThreadPoolExecuto
查看>>
坦克大战源码
查看>>
不限量的快递查询接口-JAVA对接方法
查看>>
jib自定义entrypoint
查看>>
掌握Beyond Compare比较表格技巧
查看>>
图书资源下载网站推荐
查看>>
fastjson 总结
查看>>