python爬虫 如何自己用云服务器上搭建代理服务器 并使用requests测试代理?

python爬虫 如何自己用云服务器上搭建代理服务器 并使用requests测试代理?,第1张

1、简介

使用同一个ip频繁爬取一个网站,久了之后会被该网站的服务器屏蔽。所以这个时候需要使用代理服务器。通过ip欺骗的方式去爬取网站

可以使用http://yumiqianyuecomcom/proxy中找到很多服务器代理地址

2、应用

# -coding:utf-8-

from urllib import request

def use_porxy(porxy_addr,url):

porxy = requestProxyHandler({'http':porxy_addr})

opener = requestbuild_opener(porxy, requestProxyHandler)

requestinstall_opener(opener)

data = requesturlopen(url)read()decode('utf-8')

return data

data = use_porxy("11411518259:128","http://wwwbaiducom")

print(len(data))

正常,这才是服务器

首先确保装了Python,我装的是2x版本,对了,我的操作系统是WIN7,其实对于Python来说,什么操作系统并不重要。Python内置了一个简单的HTTP服务器,只需要在命令行下面敲一行命令,一个HTTP服务器就起来了:

python -m SimpleHTTPServer 80

后面的80端口是可选的,不填会采用缺省端口8000。注意,这会将当前所在的文件夹设置为默认的Web目录,试着在浏览器敲入本机地址:

如果当前文件夹有indexhtml文件,会默认显示该文件,否则,会以文件列表的形式显示目录下所有文件。这样已经实现了最基本的文件分享的目的,你可以做成一个脚本,再建立一个快捷方式,就可以很方便的启动文件分享了。如果有更多需求,完全可以根据自己需要定制,具体的请参见官方文档SimpleHTTPServer,或者直接看源码。我拷贝一段,方便参考:

import SimpleHTTPServer

import SocketServer

PORT = 8000

Handler = SimpleHTTPServerSimpleHTTPRequestHandler

httpd = SocketServerTCPServer(("", PORT), Handler)

print "serving at port", PORT

httpdserve_forever()

如果你想改变端口号,你可以使用如下的命令:

python -m SimpleHTTPServer 8080

如果你只想让这个HTTP服务器服务于本地环境,那么,你需要定制一下你的Python的程序,下面是一个示例:

import sys

import BaseHTTPServer

from SimpleHTTPServer import SimpleHTTPRequestHandler

HandlerClass = SimpleHTTPRequestHandler

ServerClass = BaseHTTPServerHTTPServer

Protocol = "HTTP/10"

if sysargv[1:]:

port = int(sysargv[1])

else:

port = 8000

server_address = ('127001', port)

HandlerClassprotocol_version = Protocol

httpd = ServerClass(server_address, HandlerClass)

sa = httpdsocketgetsockname()

print "Serving HTTP on", sa[0], "port", sa[1], ""

httpdserve_forever()

注意:所有的这些东西都可以在 Windows 或 Cygwin 下工作。

您可能感兴趣的文章:

你需要登录云服务器管理控制台,记录被我打马赛克位置的公网ip。

登录服务器

windows推荐下putty进行连接远程服务器,linux和macos不需要那么麻烦,ssl就行了。

putty

在下图的host name中输入你的公网IP,点击open。

putty界面

输入密码,看不见输入不要慌,linux就是这样保护安全的。

Paste_Imagepng

登录成功界面见下图,然后想怎么操作就怎么操作了。

登陆成功界面

运行我的python文件

推荐FileZilla进行文件传输(不具体说明了),我上传了我的flask网站项目

我的项目

记住服务器同时有Python2和Python3,

python

运行的时候记得使用合适的版本,我用的是虚拟环境(自行百度如何创建虚拟环境)

在运行python之前先安装一个screen,他可以将一个程序在后台运行

sudo apt-get install screen

运行python文件,成功后按下ctrl+A和ctrl+D可以隐藏。隐藏后可以输入screen -r 恢复。

运行成功

使用pip或easy_install可以管理和安装python的package包,实际上它们都是从pypi服务器中搜索和下载package的。目前在pypi服务器上,有超过三万多个package,同时还允许我们将自己的代码也上传发布到服务器上。这样,世界上的所有人都能使用pip或easy_install来下载使用我们的代码了。

具体步骤如下:

首先创建项目文件和setup文件。

目录文件结构如下:

project/

simpletest/

__init__py

testpy

setuppy

假设项目文件只有一个simpletest包,里面有一个testpy文件。

创建的setuppy文件格式大致如下,其中,install_requires字段可以列出依赖的包信息,用户使用pip或easy_install安装时会自动下载依赖的包。详细的格式参考文档。

from setuptools import setup, find_packages

setup(

name = 'simpletest',

version = '001',

keywords = ('simple', 'test'),

description = 'just a simple test',

license = 'MIT License',

install_requires = ['simplejson>=11'],

author = 'yjx',

author_email = 'not@allcom',

packages = find_packages(),

platforms = 'any',

)

然后将代码打包。

打包只需要执行python

setuppy xxx命令即可,其中xxx是打包格式的选项,如下:

# 以下所有生成文件将在当前路径下 dist 目录中

python setuppy bdist_egg # 生成easy_install支持的格式

python setuppy sdist # 生成pip支持的格式,下文以此为例

发布到pypi。

发布到pypi首先需要注册一个账号,然后进行如下两步:

注册package。输入python setuppy register。

上传文件。输入python setuppy sdist upload。

安装测试

上传成功后,就可以使用pip来下载安装了。

另外,pypi还有一个测试服务器,可以在这个测试服务器上做测试,测试的时候需要给命令指定额外的"-r"或"-i"选项,如python

setuppy register -r "",python

setuppy sdist upload -r "",pip

install -i "" simpletest。

发布到测试服务器的时候,建议在linux或cygwin中发布,如果是在windows中,参考文档,需要生成pypirc文件

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » python爬虫 如何自己用云服务器上搭建代理服务器 并使用requests测试代理?

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情