亚马逊跨境电商商品画像数据的抓取方法——人工采集

  人工采集,顾名思义就是运营者通过基本的“复制粘贴”方式去亚马逊跨境电商平台上采集数据,其一般应用于亚马逊跨境电商搜索曝光页数据和商品详情页数据。人工采集的优点是无技术门槛,灵活方便,缺点是效率低下。一般而言,人工采集单个数据的时间为5秒(将亚马逊跨境电商平台上的数据复制粘贴到表格或者数据库中的时间),一个正常工作8小时的运营者一天能分配的有效数据采集时间为 0.5~1小时,取中间值45分钟,那么一天的有效采集数据量为540个数据。如果一个商品需要采集3个维度的数据,例如review数量+排名+价格,那么540-3=180,即一个运营者一天可以有效跟踪与采集180个商品的数据。

  如果运营者想要提升单日的人工采集效率,笔者有如下两条建议。

  1.明确数据采集的目的,从而通过减少数据采集的频次,最终提升采集效率。例如,如果运营者想要了解一个搜索关键词下不同商品的销量分布规律,即可通过人工采集搜索曝光页前500~1000个商品的销售排名数据来进行估算,而无须采集其他维度的数据,也没有必要每天采集一次数据( 因为一个品类/关键词下的销量分布并不会在短时间内发生变化),这样就可以提升数据采集的效率。

  2.在难以实现数据全面采集时,可以使用抽样采集的方法来提升采集效率。

  例如,如果运营者想要分析某搜索关键词下前100页商品的review、排名、价格的分布规律,但是自身既没有能力与资金开发爬虫程序,也没有找到合适的工具或者第三方采集器,这时就可以使用抽样采集的方法。在该案例下,运营者可以将前100页的商品设定为100个组,设每页有48个商品,可以分别抽取每组的第8个、第16个、第24个第32个、第40个、第48个的商品,那么每个组就只需采集6次,总共6x100=600次,考虑到每次采集涉及review、排名、价格3个维度,那么总共采集的数据量为600x 3=1800个。如果一个数据的采集时间为5秒,那么总采集时间约为2.5小时,1周内即可完成所有数据采集。

THE END
分享
二维码
< <上一篇
下一篇>>