目前版本更新:
批量单页采集关键词商品
批量多页采集关键词商品
增加大陆商家和最低指定价格399
优化稳定性和采集速度
自定义选择大陆商家
自定义选择最低销量
屏蔽热门商品会出现的广告栏商品
增加每页实时保存,即使在处理过程中发生任何错误或者你需要提前停止处理,也能保存已经收集到的数据。
最近在ChatGPT的帮助下,在为露天电商项目写一个Python的采集脚本。
本来我意思是让GPT4帮我写一个,可惜OpenAI的安全人员,设置了不能写爬虫脚本。
但是,这又怎么难得到机智的我。
在我的引导下,使用GPT的代码解释器插件,写出了第一步。
这个任务可以通过使用诸如Selenium和pandas的Python库来完成。Selenium是一个自动化测试工具,可以模拟人的行为,如打开网页,点击按钮,输入文本等。而pandas则可以方便地处理和存储数据。
以下是一个基本的示例,其中的代码将打开浏览器,导航到指定的URL,填入搜索栏并保存结果。
需要注意的是,这个示例代码需要你在你自己的机器上安装Chrome浏览器和对应的ChromeDriver。并且,由于网站的布局和元素可能发生改变,你可能需要根据实际的网页结构来调整代码。
另外,这个代码是在假设关键词文件只有一行关键词的情况下编写的。如果关键词文件有多行,你可能需要修改代码来适应这种情况。
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import pandas as pd
import time
# 打开关键词文件with open('关键词.txt', 'r') as f:
keyword = f.read().strip()
# 设置webdriver路径driver_path = "/path/to/chromedriver"
# 创建webdriver对象driver = webdriver.Chrome(driver_path)
# 导航到指定URLdriver.get("https://www.ruten.com.tw")
# 找到搜索栏并输入关键词search_box = driver.find_element_by_name("keyword")
search_box.send_keys(keyword)
search_box.send_keys(Keys.RETURN)
# 等待页面加载time.sleep(5)
# 拉到最下面driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
# 等待页面加载
time.sleep(5)
# 收集商品链接和商品名
products = driver.find_elements_by_css_selector(".product")
product_data = []
for product in products:
name = product.find_element_by_css_selector(".product-name").text
link = product.find_element_by_css_selector("a").get_attribute("href")
product_data.append([name, link])
# 保存为xlsx文件
df = pd.DataFrame(product_data, columns=['Name', 'Link'])
df.to_excel('output.xlsx', index=False)
# 关闭浏览器
driver.quit()
这是一个基础版本的脚本,你可能需要根据实际需求进行调整。注意在实际运行时,需要将/path/to/chromedriver
替换为实际的ChromeDriver路径。
很棒~
这就是第一步~
目前已经更新到4.0版本~
后面就是不断的迭代功能,优化代码,维持稳定性。
ChatGPT的其他功能在商业角度来说,强大与否,我无法肯定。
但是在代码编程这块,能够很好的帮助小白快速入门。
你就像一个产品经理+0基础小白程序员的角色。
你负责提出需求,提出问题。
ChatGPT负责解决问题。
下面是我在使用中的一些截图:
除了帮你解决问题
还能顺带着给你提出优化意见
简直太棒~
有兴趣的或者需求的朋友建议你们尝试一下~
下面是我ChatGPT小店,有基础账号售卖,让你免去注册的需要国外手机号码的烦恼~
点击上方即可进入小店,购买账号。
Comments NOTHING