`
debbbbie
  • 浏览: 26211 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

让爬虫轻松一点~(一)

 
阅读更多

在信息大爆炸的互联网,数据多的烦不胜数,想要人为的统计某类信息,恐怕越来越难了,这时候就需要爬虫的帮助了,一如 360 爬取百度的百科、知道,一淘爬取各大电商的产品、用户评论,百姓网从赶集网页面上收集其用户公开的 QQ 邮箱并发送推广邮件。。。

随着爬虫的发展,已经严重危害了目标网站的服务质量及数据安全,于是他们开始各种围追堵截。道高一尺魔高一丈,我们的爬虫终究能够突破层层壁垒,拿到想要的数据。

今天,我们就做一件事,让爬虫更智能。一般的服务器都会判断访问来源的 User-Agent,适时的更好一下你的 User-Agent,无非是个明智之举。 Gem useragents,已经为您封装了此项需求,只需拿来即用就行。用法非常简单:

首先安装一下本 gem,gem install useragents

然后对代码:

    require 'httparty'
    HTTParty.get('http://ruby-china.org')

更改成这样即可

    require 'useragents'

    agent = UserAgents.rand()
    # => "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1464.0 Safari/537.36"
    HTTParty.get('http://ruby-china.org', :headers => {'User-Agent' => agent})

useragents 全部收集于流行浏览器 Chrome, Opera, Safari, InternetExplorer, Firexof,并剔除了其中的老旧版本,最终保留了 500 多个 User-Agent,并会定时更新。

附上 github 地址 https://github.com/debbbbie/useragents-rb, 欢迎 fork 或提交 issues 。

分享到:
评论

相关推荐

    稀有的、完整的网络蜘蛛、爬虫源代码~~~!

    我翻出我的布袋,把它们依然放回它们应该呆的地方,让更多的人们得到启发,开始创新之旅,期待您的精彩,感谢曾经自由的(不被看重)网络~~~ ------------------------------- 这个是完整的项目源代码,原汁原味,...

    B站用户爬虫 好耶~是爬虫.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    tumblr爬虫

    python写的tumblr爬虫~~~~~~~~~~~~~~~~~~。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。~~~~好东西

    爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文

    爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文...

    网络爬虫~源码

    网络爬虫~源码。可以遍历网络,查找自己想要的资讯。但是,存在不稳定的问题。大家一起来讨论。

    52讲轻松搞定网络爬虫.txt

    这个课程除了为你讲解爬虫技术的必备知识点,还会结合当下的技术情况为你讲解「JavaScript 逆向」「App 逆向解密」「深度...学了这个专栏之后,你能轻松过掌握当下优秀爬虫所用到的必备技术,应对绝大多数网站的爬取。

    网络爬虫爬虫软件

    需要加载一个字典文件,此字典文件在爬虫程序中要求放在此目录结构下: c:\dictionary\dictionary.txt,词典默认认为是按照词语长到短的顺序排列的 2、此爬虫程序爬到的网页内容存储到数据库中,运用的是SQL Server ...

    网络爬虫网络爬虫网络爬虫

    网络爬虫 网络爬虫 网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫

    网站图片爬虫小工具 网站图片爬虫小工具

    网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具...

    一个可视化的抓取b站弹幕和评论的爬虫项目~.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdf

    Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 ...

    python爬虫 轻松 绕过 cloudflare防火墙

    python爬虫 轻松 绕过 cloudflare 防火墙 遇到 cloudflare 爬虫基本歇菜了, 看例子 轻松上手

    Python自动办公- Python爬虫~已爬取目标网站所有文章,后续如何只获取新文章 Python源码

    Python自动办公- Python爬虫~已爬取目标网站所有文章,后续如何只获取新文章 Python源码 Python自动办公- Python爬虫~已爬取目标网站所有文章,后续如何只获取新文章 Python源码 Python自动办公- Python爬虫~已爬取...

    Crawler爬虫软件,轻松获取网络资源

    网络爬虫,轻松获取网络资源!网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。

    python爬虫一.zippython爬虫一.zip

    python爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zippython爬虫一.zip

    用python编写网络爬虫教程合集+一个爬虫框架

    用python编写网络爬虫教程合集+一个爬虫框架 爬虫入门 网络爬虫 爬虫精华 web scraper框架

    自己动手写网络爬虫光盘文件6~9章

    自己动手写网络爬虫光盘文件6~9章 自己动手写网络爬虫光盘文件6~9章

    150讲轻松学习Python网络爬虫

    150讲轻松学习Python网络爬虫,包含代码、笔记、ppt、软件,资料很齐全!

Global site tag (gtag.js) - Google Analytics