当前位置:首页 教程 编程教程
全部
系统教程
软件教程
CMS教程
编程教程

软件简介
去评论 去报错

前言:

在进行大规模数据采集时,我们可能会因为频繁访问同一网站而被屏蔽,导致无法正常爬取所需的数据。为了解决这个问题,我们可以使用代理IP来隐藏我们的真实IP地址,以减少被屏蔽的概率。本文将介绍Python3中使用requests库与代理IP配合完成网络数据采集的方法,并提供源码分享。

实现方法: Python3提供了非常方便的requests库,用于进行HTTP请求和处理响应。我们可以通过设置proxies参数来支持对网络请求的代理服务器进行配置。以下是使用代理IP请求网络数据的代码示例:

import requests
# 设置代理IP
proxies = {
  'http': 'http://127.0.0.1:8080',
  'https': 'https://127.0.0.1:8080',
}
# 发起HTTP请求
response = requests.get('https://www.example.com', proxies=proxies)
# 处理响应结果
if response.status_code == 200:
    res_text = response.text
    print(res_text)
else:
    print('请求失败')

在上面的代码示例中,我们首先定义了一个代理IP字典proxies,包含http和https两个协议的代理地址。然后,我们使用requests库的get方法发起HTTP请求,并通过proxies参数指定使用代理IP进行连接。最后,当响应状态码为200时,我们提取出相应结果并进行处理,否则输出“请求失败”的信息。

需要注意的是,代理IP地址和端口会根据实际情况而变化,因此代码中的这些参数需要根据具体场景进行修改才能正常工作。

import requests
def get_data_with_proxy(url, proxy):
    """
    使用代理IP获取数据
    :param url: 请求的URL
    :param proxy: 代理IP地址(格式为"ip:port")
    :return: 返回请求得到的数据
    """
    proxies = {
        "http": f"http://{proxy}",
        "https": f"https://{proxy}"
    }
    try:
        response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}, proxies=proxies, timeout=10)
        if response and response.status_code == 200:
            return response.text
    except Exception as e:
        print(f'[WARN] {e}')
        return ''
if __name__ == '__main__':
    url = 'https://www.example.com'
    proxy_address = '127.0.0.1:8080'
    html_content = get_data_with_proxy(url, proxy_address)
    if html_content != '':
        print(html_content)

在本例中,我们定义了一个名为get_data_with_proxy的函数,其中url参数用于指定请求网站的URL地址,proxy参数指定代理IP地址。该函数返回发送请求后从响应中获取到的HTML内容或空字符串。

由于代理IP的连接稳定性受网络环境合适位置等多种因素影响,对于一些不稳定的代理IP是否可用需要进行判断和识别。而为了增加代理IP的可用性,我们还通过设置请求超时时间和User-Agent等参数来提高请求的成功率。

【代理IP怎么获得?】

代理IP的获取方法有以下几种:

  1. 免费获得代理IP地址:可以通过爬虫程序、代理IP软件或者在线免费代理IP网站获取代理IP。但是免费代理IP的缺点是需要验证获得的IP,提取起来很麻烦,很费时。

  2. 购买付费代理IP:可以在网上找到付费代理IP,相对免费,付费代理IP池有专人维护,有技术支持,质量好,速度快,能很大程度的提高工作效率。

  3. 自己搭建代理IP池:可以使用自己的电脑搭建代理IP池,但是需要注意,自己的电脑可能需要不间断地运行,而且可能会存在性能问题。

总之,获取代理IP的方法多种多样,可以根据自己的需求和实际情况选择合适的方法。

获取代理IP的代码例子:

def getProxy():
    while True:
        try:
            # API URL
            url = 'http://***'
            # 白名单URL
            white = 'http://***?white='
            r = requests.get(url).json()
            if r['code'] == 0:
                ip = "{}:{}".format(r['data'][0]['ip'], r['data'][0]['port'])
                try:
                    proxies = {
                        "http": "{}".format(ip),
                        "https": "{}".format(ip)
                    }
                    # “http://mini.browser.360.cn/area/getlocation”是一个查询IP的接口
                    # 请求成功则返回获取到的代理IP
                    # 失败则延时2秒并重试
                    requests.get("http://mini.browser.360.cn/area/getlocation",verify=False,proxies=proxies,timeout=3)
                    return ip
                except:
                    time.sleep(2)
                    continue
            elif '白名单' in r['msg']:
                r_host = re.search("(d{1,3}.d{1,3}.d{1,3}.d{1,3})", str(r['msg'])).group(0)
                requests.get(white + r_host, verify=False).text
                continue
            elif '请求太频繁' in r['msg']:
                time.sleep(2)
                continue
        except:
            time.sleep(2)
            continue

以上代理实现了对代理IP api接口的请求,但在初始使用中需要根据具体API返回的数据格式进行修改才能正常使用。

由于代理IP的连接稳定性受网络环境合适位置等多种因素影响,对于一些不稳定的代理IP是否可用需要进行判断和识别。而为了增加代理IP的可用性,我们还通过设置请求超时时间和User-Agent等参数来提高请求的成功率。

下载地址

普通下载

点击直接低速下载,因需宽带成本高速下载需扫码

本地低速下载

网盘下载

通过不限速阿里、蓝奏网盘高速下载(部分需要扫码)

站长声明:

1、本站资源仅供个人学习交流,请于下载后 24 小时内删除,不允许用于商业用途,否则法律问题自行承担。

2、如遇到资源无法下载请 点击报错,我们将尽快纠错。

3、如有侵犯您的版权,请联系我们,我们会尽快处理,并诚恳的向你道歉!

注意:如.zip压缩包无法打开请将后缀修改成.exe或使用其它压缩软件尝试。

文章评论

用户头像
匿名网友
发表评论
昵称

评论记录:

未查询到任何数据!

热门软件

pyqt5,6之图形界面填坑之注册全局快捷键实现主窗口隐藏显示切换遇到的问题

详细介绍pyqt5、6图形界面开发时通过注册全局快捷键实现主窗口隐藏显示切换的方法及遇到的问题及问题的解决方法。

web开发教程 PHP、MySQL与JavaScript学习手册 第4版 免费PDF电子书下载

《PHP、MySQL与JavaScript学习手册 第4版》是一个适用于PHP及Web开发初学者的入门教材。本书全面深入探讨了PHP和MySQL以及Javascript语言的学习指南,旨在让读者能够轻松上手基础Web应用程序开发和编程技术

Python面向对象编程指南 Steven F. Lott(洛特)pdf扫描版免费下载

本书致力于深入讲解Python语言的高级特性,通过丰富、强大的代码示例为读者循序渐进地讲解如何编写高质量的Python代码。本书可谓是成就Python编程高手的必读之选。

PyQt5快速开发与实战电子书(清晰有目录书签无水印)高清pdf免费下载

本书既是介绍PyQt5的快速入门书籍,也是介绍PyQt5实战应用的书籍。PyQt5是对Qt所有类的Python封装,即可以利用Qt的强大功能,也可以利用Python丰富的生态,同时能够结合Python简洁的语法进行操作,其结果就是使用PyQt5可以高效简单地开发出自己想要的程序

PHP从入门到精通(第3版) 免费PDF电子书下载

《php从入门到精通(第3版)》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用PHP进行网络开发应该掌握的各方面技术。

猜你想看

免费下载《PHP和MySQL Web开发(原书第5版)》PDF电子书及完整源码示例

分享免费的《PHP和MySQL Web开发(原书第5版)》PDF电子书供读者下载,读者可以随时随地阅读本书,并且包含所有例子代码源文件。

web开发教程 PHP、MySQL与JavaScript学习手册 第4版 免费PDF电子书下载

《PHP、MySQL与JavaScript学习手册 第4版》是一个适用于PHP及Web开发初学者的入门教材。本书全面深入探讨了PHP和MySQL以及Javascript语言的学习指南,旨在让读者能够轻松上手基础Web应用程序开发和编程技术

《CSS选择器世界》免费中文PDF完整版下载,让你轻松玩转CSS选择器

《CSS选择器世界(第2版)》是一本非常优秀的CSS选择器技术书籍,可免费PDF电子书下载:本书提供了完整的PDF电子书免费下载,方便读者随时随地进行学习。

PHP&MySQL跨设备网站开发实例精粹PDF免费下载

《PHP & MySQL跨设备网站开发实例精粹》从易学实用的角度详细讲解PHP、HTML5语法,MySQL数据□□取;针对网页之间的信息传递、表单的后端处理、HTTP Header、Cookie、Session、文件存取

python3使用multiprocessing模块实现多进程(附代码例子)

python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing

PHP+MySQL动态网站开发从入门到精通.pdf

《PHP+MySQL动态网站开发从入门到精通》是张工厂所著的一本详细介绍如何使用PHP和MySQL进行动态网站开发的书籍。本书从入门到精通,适合初、中级Web开发人员阅读。本书不仅介绍了PHP和MySQL的基础知识,还

《Selenium 2自动化测试实战 基于Python语言》 带索引书签目录PDF电子书 下载

本书分为12个章节,第1章是自动化测试相关基础知识的介绍;第2章到第10章是本书的重点,循序渐进地介绍了自动化测试所用到的技术;第11章通过一个具体的项目综合运用了前面章节所介绍的技术与技巧

易语言超级列表框置行列色,修改不闪烁版本源码免费下载

易语言超级列表框置行列色,修改不闪烁版本源码免费下载,【指定行】文本颜色和背景颜色,【指定行列】文本颜色或背景颜色的修改需要自行开发完善

最新标签