为前端 后端组件但 也是一个不错的选择,绝对是抓取的标准(谷歌使用它)。我认为当你对抓取感兴趣时,你不可避免地要学习编码,因为你几乎总是需要一些你无法从简单工具中轻易获得的东西。我喜欢的其他工具是用于快速抓取一页的 插件,用于构建和测试正则表达式的 、 和 。当然,还有适用于 的 工具。 乍得金里奇 我喜欢像 和 这样的工具,但我发现在方法背后有一个简单的电子表格的强大功能提供了更多的灵活性,因为它可以节省时间来管理输出、执行一系列串联查找并将其转换为持续维护的动态报告。 表格还可以让您创建自定义脚本。
机最常见的缺陷是它们只做你告诉
转换 输出嘿它也是免费的! 丹 巴特勒 根据我个 太原电话号码数据 人的经验, 是迄今为止最通用、最强大和最快速的方法。我从 开始,并在毕业于 和更强大、健壮和 驱动的用途之前使用它磨练了自己的牙齿。偶尔,我会使用 构建自己的爬虫,但到目前为止,这从未真正证明是对我时间的有效利用 尽管它很有趣。 汤姆克里奇洛 我们内部有自己的工具集。它建立在 和 之上,并且有一个非常强大的正则表达式引擎,所以我们可以提取几乎任何我们想要的东西。当我们需要它们做一些真正独特的事情时,我们也会编写自定义工具,比如分析图像类型 压缩。
它们的事 这听起来很明显
对于非常非常大的网站 数百万页面 我们可以使用 。但我们的内 搜索引擎优化论坛 部工具集在 的时间里都能做到这一点,并为我们提供了很大的灵活性。 伊恩 卢里 虽然我知道目前有许多所见即所得的工具,但我仍然更喜欢编写脚本。这样我就能得到我想要的东西,而且它的格式也正是我正在寻找的。 迈克金 问题 :网络抓取需要注意哪些常见陷阱? 糟糕的数据。这包括从隐藏字符和编码问题到糟糕的 ,有时您只是被一些聪明的系统管理员喂食。