戴夫 索蒂马诺 仅仅因为你可以抓取一些东西并不意味着你应该这样做,有时太多的数据只会混淆最终目标。我喜自动为您完成剩下的工作,您会在更好的地方从另一边出来。 乍得金里奇 如果您正在设置动态报告或构建自己的工具,请确保您正在运行更改检测之类的东西,以便在 的目标 发生更改时收到警报,这可能会使您的 无效。另一方面,通过公共 请求或通过 解析私有 凭据 身份验证是多么普遍,这真是太疯狂了 说真的,如果网站不想在公共领域访问它,就需要开始锁定这些东西。 丹 巴特勒 计算但它很好地提醒你,当你感到沮丧时,通常只能怪自己。
哦 别忘了每隔一段时间检查一下你的
重复性任务 汤姆克里奇洛 放慢爬行速度很重要。我什至不是在 通辽电话号码数据 谈论谷歌抓取。我说的是抓取其他人的网站。我一直对大多数网站技术栈的优化程度如此之低感到惊讶。如果你务的网站。我们曾经以每秒一页的抓取速度杀死了一个客户的网站 他们是一家财富 强公司。这很荒谬,但它发生的频率比你想象的要高。此外,如果您不将爬虫设计为检测和避免蜘蛛陷阱,您最终可能会爬取 页完全重复的废话。那是对服务器资源的浪费。一旦你发现一个无限扩展的 或其他问题,让你的爬虫继续前进。
伊恩 卢里 这些天我遇到的最大陷阱是
很多网站都使用 呈现他们的内容,而标准的基于文本的 搜索引擎优化论坛 爬虫并不总能解决它。通常情况下,我正在使用无头浏览器进行抓取。我最喜欢的 抽象是 ,因为它又快又简单,所以我使用它。另一件事是,有时人们的代码非常糟糕,没有结构,所以你最终会抓住所有东西并需要对其进行分类。 迈克金 您在数据抓取方面有任何有趣的用例或经验吗?在评论中发出声音! 关于 在奥克兰和纽约市的初创公司磨练了用户获取和增长方面的技能后,来到了 在之前的工作中,他负责技术搜索引擎优化。