V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
callmejoejoe
V2EX  ›  程序员

请教爬虫代理方案,成本太高了!

  •  
  •   callmejoejoe ·
    callmejoejoe · 4 小时 28 分钟前 · 1229 次点击
    想做亚马逊爬虫,用国内隧道代理和国外动态数据中心 IP 、动态住宅 IP 进行了测试:
    国外动态住宅 IP 最优,但价格最贵;
    国外动态数据中心 IP 也可以,但价格也贵,普遍是 8 元/1GB ,这样我的成本是 0.004 元/1page ,成熟竞品售价是 0.001 元/1page ,哪怕是 2 元,我的成本也跟竞品的销售价一样!根本赚不了钱。

    还是说我需要考虑整体盈利模式?成熟竞品的收费模式大概是:
    1. 基本会员:几十元一个月,可以查询数据,不可以爬取数据。
    2. 付费购买流量进行爬取:98 元,可爬 10w 数据,0.001 元/1page ,每天最高可爬 10w 。

    对此我的理解是:让用户付费购买爬取,爬取的数据更新到数据库,这部分数据也可以通过会员费来实现一部分盈利。但我感觉数据肯定是要达到一定量才能收费,否则用户开了会员能查的数据不多,就没意义了。所以一开始只能做爬取,所以要想盈利,就只能考虑如何降低流量成本?
    也测试了快代理的国内隧道代理,偶尔能爬,昨天下午爬了 1500 页也没事,但是晚上就彻底不行了,各种重定向、响应超时,但是换国外 IP 就没问题。

    疑问:
    1. 有没有便宜的国外 IP 代理方案呢?
    2. 国内 IP 为什么爬不了,用了 Playwright 作为下载中间件也不行,难道国内 IP 容易被亚马逊反爬虫识别?
    3. 还是说我应该放弃这个爬虫方案?我看有些竞品是让用户自己电脑本地爬,但这样太慢了!但开发简单点,爬虫还要弄集群,负载均衡,数据量大了感觉数据库也是个问题,这方面都没做过,头大。

    爬虫新手,希望有大佬能解解惑,感激不尽!
    17 条回复    2024-09-29 15:27:18 +08:00
    viking602
        1
    viking602  
       4 小时 18 分钟前   ❤️ 1
    我们两套方案 一套是用机场 后端不断自动切换 IP 还有一套就是买数据中心代理 买了很多家 然后做负载均衡轮训
    MFWT
        2
    MFWT  
       4 小时 14 分钟前   ❤️ 1
    国内 IP 毕竟还是会涉及到过墙问题,卡顿慢很正常
    做大的那些主要还是靠量来堆,以及提高代理 IP 重用率,用各种来源的 IP (甚至有不光彩的手段,比如盗用家宽),等等
    qsnow6
        3
    qsnow6  
       4 小时 10 分钟前   ❤️ 1
    2 楼说的对,业内大玩家基本都是通过肉鸡降成本的,这不是常规技术手段能解决的问题。
    callmejoejoe
        4
    callmejoejoe  
    OP
       4 小时 7 分钟前
    @viking602 机场我也想到了,晚点试一试;数据中心的代理是包月吗还是按量?感觉对我这一个人瞎搞的成本还是太高了😂
    callmejoejoe
        5
    callmejoejoe  
    OP
       4 小时 5 分钟前
    @MFWT
    @qsnow6
    好吧,我说他们成本怎么那么便宜,看来这比我想象中的复杂多了
    viking602
        6
    viking602  
       2 小时 59 分钟前   ❤️ 1
    @callmejoejoe #4 数据中心代理这个都有 主要是找相对便宜的
    yunlongV
        7
    yunlongV  
       2 小时 45 分钟前
    一般动态住宅 IP 都有无限制流量套餐,大概$200 一天,有并发数和总带宽限制。按照流量买的越多越便宜,一般在$0.8/gb 左右,还是推荐买动态住宅 IP 。
    laiyibeimeishi
        8
    laiyibeimeishi  
       2 小时 36 分钟前   ❤️ 1
    看看 ipv6 呢?
    zqqzqq
        9
    zqqzqq  
       2 小时 27 分钟前
    NoOneNoBody
        10
    NoOneNoBody  
       1 小时 48 分钟前
    开 100 个 tor
    xcsoft
        11
    xcsoft  
       1 小时 32 分钟前   ❤️ 1
    可以试试 ipv6, 有些服务商的服务器 v6 都是给整个段的 还不贵

    但是不懂 ISP 的 ip 会不会有影响
    Ritter
        12
    Ritter  
       1 小时 24 分钟前
    op 代理 IP 哪家买的 可以推荐一下吗
    aru
        13
    aru  
       1 小时 9 分钟前
    aws 、digitalocean 、linode 这些 ip 能不能爬?
    他们的都可以很容易的换 IP
    比如用 aws ,可以创建一个实例负责调度和数据库
    其他的用 spot 实例,下载流量不算钱,同一个区域内的流量也是免费的
    Kinnice
        14
    Kinnice  
       1 小时 5 分钟前   ❤️ 1
    别拿一个 IP 连续爬,分布负载均衡一下。
    callmejoejoe
        15
    callmejoejoe  
    OP
       1 小时 1 分钟前
    @viking602 好的谢谢
    @yunlongV 对个人来说还是太贵了
    @laiyibeimeishi ipv6 不知道可不可行,晚点试试
    @NoOneNoBody tor 是啥?
    callmejoejoe
        16
    callmejoejoe  
    OP
       55 分钟前
    @Ritter 我还没买,有些提供免费测试的
    @Kinnice 目前只是用代理的 api 返回的 ip 直接随机爬
    @aru 感觉不可行啊,换 ip 的操作不麻烦吗?
    aru
        17
    aru  
       6 分钟前
    @callmejoejoe
    可以通过 api 操作
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4986 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 07:33 · PVG 15:33 · LAX 00:33 · JFK 03:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.