分享好友 最新动态首页 最新动态分类 切换频道
python爬取app中的音频_Python3爬取喜马拉雅页面音频文件
2024-12-26 05:04

目的

这是一个python练习,经过这个练习,咱们能够了解:python

使用python发起http请求

python的文件操做

python的数据库操做

1、分析列表页面

首先分析一下某网站的专辑页面要素,想办法获取页面红色列表信息数据。理论上,每一个音频大体包括:id、标题、音频地址、更新时间等等

在浏览器调试工具中,查看一下http请求。大体找一下,看看能不能找到相应的数据。看看是直接页面生成的,仍是有额外的api获取数据

在network分析中,快速浏览一下全部的http请求,查看响应的结果,很快就能找到mysql

在请求中,咱们发现了一个请求/revision/album/v1/getTracksList?albumId=18521227&pageNum=1,对就它了git

结合页面的状况,还有响应的结果,咱们应该能猜到:albumId应该就是专辑ID,而pageNum应该就是页面了,咱们验证一下web

没有错,这个就是列表信息的请求url了。json响应结果中,咱们找比较重要的信息:trackId-音频ID,title-音频标题,url-音频播放地址sql

列表信息来源应该搞清楚了,咱们接着看音频播放的时候是否能找到音频来源?数据库

2、分析音频播放页面

打开单个音频播放地址后,跟列表页面同样,咱们找单个音频信息来源。

应该能找到/revision/play/v1/audio?id=247457234&ptype=1

这个请求响应结果里面的src就是音频地址了json

3、编码实现

获取专辑列表方法api

一、使用requests发起http请求

二、获取列表信息api返回的json结果,根据本身须要, 把列表信息保持到 list 中

三、方法返回track信息的list

# 获取专辑列表

# album_id 专辑ID

# page_num 页码

def get_track_list(album_id, page_num):

url = "https://www.ximalaya.com/revision/album/v1/getTracksList?albumId=" + str(album_id) + "&pageNum=" + str(

page_num)

track_list = []

resp = requests.get(url, headers=header)

result = resp.json()

if result['ret'] == 200:

tracks = result['data']['tracks']

for tack in tracks:

track_list.append(

{'index': tack['index'], 'play_count': tack['playCount'], 'duration': tack['duration'], 'trackId': tack['trackId'], 'title': tack['title'],

'url': tack['url']})

# 加入字典(暂时没有使用)

track_map[tack['trackId']] = tack['title']

return track_list

获取单个音频信息方法浏览器

一、传入音频的id

二、使用requests发起http请求,获取单个音频的json信息

三、方法返回音频实际的http源文件地址

# 获取音频地址

def get_track_url(track_id):

url = "https://www.ximalaya.com/revision/play/v1/audio?id=" + str(track_id) + "&ptype=1"

resp = requests.get(url, headers=header)

result = resp.json()

if result['ret'] == 200:

track_audio_play = result['data']['src']

if len(track_audio_play) > 0:

return track_audio_play

保存http音频文件信息到本地app

一、使用requests发起http请求,获取单个音频的流

二、保存到响应的本地路径

#下载音频文件

def download_track_audio(url, file):

resp = requests.get(url, headers=header, stream=True)

with open(file, "wb") as f:

for data in resp.iter_content(chunk_size=1024):

if data:

f.write(data)

例子运行&保存信息到数据库

try:

dir = "H:/Temp"

# 链接 mysql 的方法:connect('ip','user','password','dbname')

con = mdb.connect(host='127.0.0.1', user='root', passwd='123456', db='py_demo', use_unicode=True, charset="utf8")

# 全部的查询,都在链接 con 的一个模块 cursor 上面运行的

cur = con.cursor()

# 执行一个查询

# cur.execute("SELECT VERSION()")

# 取得上个查询的结果,是单个结果

# data = cur.fetchone()

track_list = get_track_list(18521227, 1)

sql = """insert into track_info_demo(id,trackId,title,play_count,duration,url,file_path) values(%s,%s,%s,%s,%s,%s,%s)"""

for track_info in track_list:

# 下载

track_url = get_track_url(track_info.get('trackId'))

file_path = ""

if track_url:

# 扩展名

file_name = track_url[track_url.rindex('/'):]

# 文件名路径

file_path = dir + file_name

# 下载

download_track_audio(track_url, file_path)

# values.append(track_info.get('index'))

# values.append(track_info.get('trackId'))

values = [track_info.get('index'), track_info.get('trackId'), track_info.get('title'), track_info.get('playCount'), track_info.get('duration'),

track_info.get('url'), file_path]

cur.execute(sql, values)

con.commit()

finally:

if con:

# 不管如何,链接记得关闭

con.close()

结果

数据库保存信息

文件信息

最新文章
百度蜘蛛池租用:清风算法官网蜘蛛池,助力网站优化,提升搜索引擎排名
清风算法官网提供的蜘蛛池租用服务,助力网站优化,有效提升搜索引擎排名,助力企业网络营销。本文目录导读:清风算法官网蜘蛛池简介清风算法官网蜘蛛池的使用方法清风算法官网蜘蛛池的优势随着互联网的快速发展,搜索引擎优化(SEO)成为
迈威尔科技定制HBM解决方案:AI加速器性能大幅提升
近日,迈威尔科技(MRVL.US)宣布其在高带宽内存(HBM)领域的重大突破,将为人工智能处理器带来显著的性能提升。这项创新性的定制HBM解决方案是通过与美光科技、三星及SK海力士等主要内存设计公司的合作,实现的,旨在满足日益增长的AI计
高清美女写真生成神器!体验搜狐简单AI的魅力
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个数字化的时代,如何创造出一个完美的‘自己’成了许多人的追求,尤其是想要通过AI技术
网站优化中的内部链接和外部链接?
对于网站优化而言,内部链接和外部链接一定是我们经常接触到的名词,但对于许多刚接触网站的朋友这两个名词可能会有些许陌生,因此,下面就来给大家讲讲这两个我们日后会经常接触到的名词。一、内部链接 指通过用户点击此超链接,将用户从
小米全新智能生活App引领智能生活新时代
小米推出最新款App,引领智能生活革新。该应用致力于提供便捷、智能的服务,为用户带来全新的生活体验。通过先进的科技手段,实现智能家居控制、健康管理、娱乐休闲等功能,让日常生活更加智能化、便捷化。这款App将成为用户智能生活的得力
用AI一键生成超逼真美女写真,轻松搞定你的视觉需求!
Deep Dream Generator:这个工具擅长通过深度学习技术来重塑图像,能生成独特的艺术风格。生成的图像富有梦幻色彩,适合希望创造出奇异效果的用户。不过,由于其生成的的图像往往较为抽象,可能不符合所有用户的需求。Generate.AI:作为新
轻松搭建企业,塑造专业品牌形象全攻略
本教程将指导您轻松搭建企业,助您塑造专业企业形象。涵盖从到设计、内容编辑及SEO优化等关键步骤,助您快速上线并提升品牌影响力。挑选合适的建设明确的功能与布局设计建设详细步骤的与优化策略在互联网迅猛发展的今天,企业已成为企业塑
这些豫企相当潮丨一只“雨燕”翱翔AI时代——来自麒麟合盛网络技术股份有限公司的调研报告
  企业家名片  李涛,麒麟合盛网络技术股份有限公司(APUS)董事长兼CEO,1999年进入互联网行业,2014年创办APUS,见证了中国互联网乃至全球互联网起起伏伏的发展历程,凭借敏锐的市场洞察力,对我国互联网、大数据、云计算、移动安全
星尘智能发布AI机器人Astribot S1
  上证报中国证券网讯(记者 孙小程)近日,星尘智能发布新一代AI机器人Astribot S1。在未经加速处理的视频中,S1机器人通过模仿学习,在家居、工作场景中执行一系列对人有用的复杂任务。公司表示,S1已接入大模型测试,能像人一样学习、
首个被人类骗钱骗感情的AI出现了
一段话,让 AI 给我打几万美元。爽文都不敢想的情节,发生在了现实之中。事实上并没有。11 月 29 日,Freysa 累计和 195 名人类聊了 482 次,被骗走约 4.7 万美元。12 月 2 日,在和 330 名人类周旋之后,Freysa 又一次被骗走约 1.3 万美元
相关文章
推荐文章
发表评论
0评