分享好友 最新动态首页 最新动态分类 切换频道
AI网络爬虫:无限下拉滚动页面的另类爬取方法
2024-12-26 13:44

现在很多网页都是无限下拉滚动的。可以拉动到底部,然后保存网页为mhtml格式文件。

接着,在ChatGPT中输入提示词

你是一个Python编程高手,要完成一个关于爬取网页内容的Python脚本的任务,下面是具体步骤

在f盘新建一个Excel文件:poe热门bot.xlsx

用Pyppeteer库的无界面模式模拟用户打开本地的网页文件"F:AI自媒体内容AI行业数据分析探索 - Poe.mhtml"

解析源代码

定位 class="InfiniteScroll_container__PHsd4 ExploreBotsPagedList_infiniteScroll__000mi"的div标签

定位div标签里面的所有a标签,提取其href属性值,这是bot的URL地址,写入Excel文件的第4列

定位a标签里面class="BotListItem_botName__IYKgR"的div标签,这是bot名称,写入Excel文件的第1列

定位a标签里面class="BotListItem_botDescription__9V_Sc"的div标签,这是bot简介,写入Excel文件的第2列

定位a标签里面class="BotListItem_activeUserCount__m8cHa"的div标签,这是bot的用户数量,写入Excel文件的第3列

注意:每一步都要输出相关信息到屏幕

一步一步的思考,但是所有的代码要整合在一起,不要分成一段一段的

网页的文件编码是utf-8

如果a标签里面没有一些div元素,就跳过

chrome的路径为:D:Program Fileschrome-win126chrome.exe

chromedriver路径为:D:Program Fileschromedriver126chromedriver.exe

Chatgpt生成Python源代码

import asyncio

import os

from bs4 import BeautifulSoup

from openpyxl import Workbook

from pyppeteer import launch

async def main():

# 步骤1:在F盘新建一个Excel文件

file_path = r'F:poe热门bot.xlsx'

wb = Workbook()

ws = wb.active

ws.title = "Bots Info"

ws.append(["Bot Name", "Bot Description", "Active Users", "Bot URL"])

wb.save(file_path)

print(f"Excel文件已创建: {file_path}")

# 步骤2:用Pyppeteer库的无界面模式模拟用户打开本地的网页文件

local_file_path = r'F:AI自媒体内容AI行业数据分析探索 - Poe.mhtml'

browser = await launch(executablePath=r'D:Program Fileschrome-win126chrome.exe', headless=True, args=['--no-sandbox'])

page = await browser.newPage()

await page.goto(f'file://{local_file_path}')

# 步骤3:解析源代码

page_content = await page.content()

soup = BeautifulSoup(page_content, 'html.parser')

# 步骤4:定位 class="InfiniteScroll_container__PHsd4 ExploreBotsPagedList_infiniteScroll__000mi"的div标签

container_div = soup.find('div', class_='InfiniteScroll_container__PHsd4 ExploreBotsPagedList_infiniteScroll__000mi')

if container_div:

print("找到目标div标签")

else:

print("未找到目标div标签")

await browser.close()

return

# 步骤5:定位div标签里面的所有a标签,提取其href属性值,写入Excel文件的第4列

a_tags = container_div.find_all('a')

print(f"找到{len(a_tags)}个a标签")

# 步骤6:处理每个a标签,提取信息并写入Excel文件

for a_tag in a_tags:

bot_url = a_tag.get('href', 'N/A')

bot_name_div = a_tag.find('div', class_='BotListItem_botName__IYKgR')

bot_desc_div = a_tag.find('div', class_='BotListItem_botDescription__9V_Sc')

bot_users_div = a_tag.find('div', class_='BotListItem_activeUserCount__m8cHa')

if bot_name_div and bot_desc_div and bot_users_div:

bot_name = bot_name_div.get_text(strip=True)

bot_desc = bot_desc_div.get_text(strip=True)

bot_users = bot_users_div.get_text(strip=True)

ws.append([bot_name, bot_desc, bot_users, bot_url])

print(f"写入Bot信息:名称={bot_name}, 简介={bot_desc}, 用户数量={bot_users}, URL={bot_url}")

else:

print("跳过a标签,因为缺少必要的div元素")

# 保存Excel文件

wb.save(file_path)

print(f"所有信息已写入Excel文件:{file_path}")

await browser.close()

asyncio.get_event_loop().run_until_complete(main())

最新文章
AI写作猫:科技论文翻译与写作,一键高效协同,打造学术新纪元
AI写作猫(www.aixiezuowang.com):科技论文翻译与写作,一键高效协同,打造学术新纪元!在科技日新月异的今天,学术研究的速度与质量成为了衡量一个国家科研实力的重要指标。然而,科研人员在追求创新突破的同时,往往面临着繁重的文献阅
ios刷手机序列号,苹果手机刷序列号多少钱
1、你好,刷机之后可以恢复原来的序列号和IMEI码。下附苹果刷机过程:下载安装并打开itunes。让手机进入恢复模式。先长按住电源键,出现关机选项时,请滑动关机。2、可以清除id,具体操作步骤如下:首先我们下载并打开“苹果刷机助手”。然
googleauthenticator身份验证器
googleauthenticator身份验证器可以为每个人的账户添加新的验证,有效防止账户泄露,支持多个账户的管理,省去登录和切换应用的麻烦,操作简单,无论Android手机型号,甚至可以在不连接网络的情况下生成各种验证码,而且非常好用。1.各种的
C语言学习之交换(冒泡)排序
    在学习c语言的过程中,在数组内容中我们总是能学习到对一组数据进行排序,对于排序有许多的方法,像 (交换)冒泡排序、选择排序、(基数)桶排序、(插入)二分法排序等等。  我主要以我个人的理解去分析常见的交换
AI 赋能 | 智能制造的 AI 算法开发和工程实现
谈到智能制造、智慧工厂,愿景是美好的,借助计算机视觉技术和 AI 算法,为自动化生产线赋予环境感知的能力,从而改善工艺流程,提高生产效率。但是,随着柔性化生产的需求增长,产线的布局调整和功能扩展在所难免,这就要求设备供应商或使
2024年安徽汽车职业技术学院在宁夏计划招生人数(附学费及专业录取分)
2024年安徽汽车职业技术学院在宁夏各专业招生人数公布,共招生10人。其中在新能源汽车技术(文)专业招生2人,学制3年,学费4900元,汽车检测与维修技术(文)专业招生1人,学制3年,学费4900元,汽车技术服务与营销(文)专业招生1人,学制3年,
0040 SpringBoot基于JAVA的微信商城小程序的设计与开发
摘 要 由于在线购物的便利性和移动互联网的迅速发展,在线购物越来越受到大众的欢迎。人们的购物方式正逐渐转移到诸如手机之类的智能终端上。使用微信小程序构建移动电子商务平台可以更好地满足大众购物的需求。由于小程序占用的资源
7步做好网络优化,提升网站排名
网站优化同任何工作一样,需要顶层设计、详密计划和强悍的执行力,任何一个环节出现问题,都会导致网站权重和关键词排名逡巡不前甚至下滑。网站优化步骤1:做好网站定位网站优化同品牌运营一样,都需要有一个明确的定位,并围绕这一定位来
2024年中国广告行业发展现状与市场规模分析 市场规模再创新高【组图】
行业主要上市公司:分众传媒(002027);省广集团(002400);新媒股份(300770);龙韵股份(603729)等本文核心数据:广告行业发展指数;广告行业市场规模等广告产业环境指数总体攀升2024年6月,市场监管总局广告监管司和中国经济信息社联合发布中国
2024年双十一拍照手机推荐,质量好性价比高,懂行人推荐五款
喜欢摄影的用户现在买手机再合适不过了,因为双十一大促已经开始了,不少优秀的摄影手机正在降价中,比如下面这五款就很棒,质量好性价比高,懂行人推荐五款!荣耀100 Pro虽然是老机型但荣耀100 Pro却提供了单反级写真相机,分别是5000万单
相关文章
推荐文章
发表评论
0评