资讯正文

今日头条爬虫暴力抓取致中小网站瘫痪 被指“蝗虫过境”

放大字体  缩小字体 2019-10-26 18:12:46  阅读:292560

  互联网江湖中,各大搜索引擎都有个约定俗成的robots协议。通俗点来说,就是大家秉承“开放互利”原则,允许爬虫在规则之下抓...

  互联网江湖中,各大搜索引擎都有个约定俗成的robots协议。通俗点来说,就是大家秉承“开放互利”原则,允许爬虫在规则之下抓取信息。而robots协议,都会约定:进了家门,请遵守我的规定。

  比如,谷歌的爬虫叫Googlebot,百度的爬虫是 Baiduspider,搜狗的爬虫 Sogouspider。而这次违反协议规则耍流氓的Bytespider,正是今日头条的搜索爬虫。

  根据近期微博平台中的爆料:头条搜索虽然还没有正式推出和上线,但派出的爬虫已让很多网站痛苦不堪。根据爆料显示,今日头条的搜索爬虫Bytespider的抓爬频率每秒几十次甚至高达数百次严重影响网站正常访问。爬虫程序直接毫无节制的疯狂抓爬无视网站性能,甚至导致网站瘫痪。

  在微博评论中,有些网友认为,这是“直接无视robots.txt?”、“有钱就是无节制”,还有网友评论,“字节跳动蝗虫大军已经出动”。

  当然也有用户对于爬虫协议并不了解。而微信公众号差评君的《爬虫爬到服务器瘫痪,今日头条的头条搜索成了小网站噩梦》一文中,对爬虫协议及其今日头条的“流氓”做法,有更清晰的阐述。

  文中报道,从今年6月到10月,越来越多的人在网上爆料自己遭遇今日头条的Bytespider“攻击”。其中,根据某网站主的描述,今日头条的搜索爬虫,短短一上午时间就对网站发出了46W次的请求,直接耗掉服务器7个多G的流量。

  差评君评论:这对平均日活都没有过千的小网站来说,已经算得上一次小型的DDOS攻击了。而实际上,也有某家服务器网站直接提出,要封杀所有Bytespider蜘蛛,太频繁,不杀不行……

  不仅国内网站如此,国外的网站也不能幸免,都遭遇过Bytespider无视自家网站robots协议的情况。

  “有些小网站会根据自己的服务器体量和维护成本,直接在robots协议里规定爬虫爬取的频率”。

  “然而Bytespider却会忽略掉人们的规矩,仗着自己财大气粗、服务器牛逼,每秒几十次,几百次的抓爬访问频率,让小网站变得卡顿,甚至直接 502 挂掉”。

  其实正如文中评论:“做信息分发等业务时,不能竭泽而渔扰乱互联网生态”。但是对于字节跳动而言,无论是有些急迫的进入搜索领域,还是以流氓之姿暴力抓取小网站的内容,其背后暴露的正是今日头条发展疲态背后的焦躁。

  在头条搜索上线期间,张一鸣曾对外表示,字节跳动正艰难度过1.8亿DAU的增长瓶颈期,如没有搜索场景的拓展和优质内容,今日头条的增长空间只剩下4000万DAU。

  移动互联网尾期头条必须面对的DAU增长难题,另一方面,今日头条也同步面对中国广告市场周期性消退的压力,在整个2019年,字节跳动的千亿营收目标看似也难以完成。

  双重挑战下,今日头条搜索业务看似成为其突围的尝试。而实际上,相比谷歌或者百度,今日头条作为内容领域的“小玩家”面临着内容粗糙,优质内容贫乏的硬伤。这也就意味着,今日头条做搜索已经存在先天性的基因劣势。强制进入搜索领域,今日头条另辟蹊径的路数,除了对小网站暴力抓取索取无度,实际上在上线之初,因为窃取百度TOP1搜索结果被起诉。

  在报道中不难看出,今日头条的直接抓取结果中,还出现了百度LOGO的水印。而今日头条搜索还未成型,同步被内部员工爆料出已经“竞价先行”。要知道,对于用户而言,搜索的价值在于获取有价值内容,而头条不仅用搜索爬虫对内容进行“东拼西凑”,在搜索还没有成型时候,同步推出竞价排名。联想到字节跳动系麾下一如抖音烤虾,奢饰品仿品等新闻,今日头条做搜索竞价也不禁令人捏了一把汗。

  前期有观点认为:业务字节跳动并没有打算在这些其他领域的产品上下多大功夫,或者说也没有能力在这些产品上做出多大成效。无非是在焦头烂额的窘况下,抛出来作为“开疆扩土”噱头的试验品。

  而一如此次的今日头条的搜索Bytespider爬虫,不考虑小网站的流量承载能力肆意抓取,以大公司的姿态罔顾小网站瘫痪已属不当。而从另一层面来看,robots协议还有一层协议价值,在于对各自内容中对用户隐私的保护。

  差评君在文中也有提及:忽略robots规则,也就是说,没准儿今日头条的爬虫会爬到一些网站禁止的内容,譬如用户隐私啥的,这可就是在法律边缘试探了……

  在今年9月15日,国家计算机病毒中心发布了《移动APP违法违规问题及治理举措》,文中就指出包括今日头条(版本7.2.7)等应用就具有涉嫌超范围采集公民个人隐私的问题。

  一边是千亿营收压力,一边是搜索业务的突围困境。

  但是对今日头条而言,其“后院起火”不能成为压榨小网站,或者撕毁协议的理由。毕竟对互联网而言,企业间秉承君子之约协同发展,也才能为网民构筑实实在在的良性网络生态。

  而面对头条搜索的Bytespider的爬虫成为小网站噩梦,或许头条也应该听听用户是怎么说的:

  有用户说:“robots相当于君子协定,可惜君子协定对流氓是没用的”。

  也有用户提到,“头条系的产品很多都没什么道德感,只看到利益,相比起来快手都显得浪漫主义了。”

  而还有一头条员工提到,“尽管我就在头条工作,但不得不说,头条的文化的确很流氓,为了完成指标不得不剑走偏锋的例子数不胜数,这可能就是内部说的追求极致吧。