Python实战：编写自动化PDF下载器，告别手动，效率翻倍！

2025/6/17 21:54:16 37 0 0 0

1. 准备工作：磨刀不误砍柴工

2. 分析目标网站：知己知彼，百战不殆

3. 代码实现：一步一个脚印

4. 运行代码：见证奇迹的时刻

5. 进阶技巧：更上一层楼

6. 注意事项：安全第一

7. 总结：学以致用，其乐无穷

你是否还在手动下载网页上的PDF文件？是不是觉得重复劳动浪费时间？别担心，今天我就带你用Python写一个自动化PDF下载器，让电脑帮你完成这些枯燥的任务！

1. 准备工作：磨刀不误砍柴工

首先，我们需要安装一些必要的Python库。打开你的终端，输入以下命令：

pip install requests beautifulsoup4

requests: 用于发送HTTP请求，获取网页内容。
beautifulsoup4: 用于解析HTML，提取我们需要的信息。

2. 分析目标网站：知己知彼，百战不殆

在开始编写代码之前，我们需要先分析一下目标网站的结构。例如，我们要下载的网站是https://example.com/pdfs。打开这个网页，用浏览器的开发者工具（通常按F12键）查看网页源代码。我们需要找到PDF文件的链接是如何呈现的。常见的有以下几种情况：

直接链接: PDF文件的链接直接出现在<a>标签的href属性中，例如<a href="https://example.com/pdfs/report.pdf">下载报告</a>。
间接链接: PDF文件的链接可能需要通过JavaScript动态生成，或者隐藏在其他属性中。这种情况需要更复杂的分析，可能需要用到Selenium等库来模拟浏览器行为。

假设我们分析发现，PDF链接都是直接链接，且都包含.pdf后缀。

3. 代码实现：一步一个脚印

接下来，我们开始编写Python代码。以下是一个简单的示例，你可以根据自己的实际情况进行修改和完善。

 import requests
from bs4 import BeautifulSoup
import os
import time
 
# 目标网站URL
url = 'https://example.com/pdfs'
 
# 下载目录
download_dir = 'downloaded_pdfs'
if not os.path.exists(download_dir):
    os.makedirs(download_dir)
 
# 创建日志文件
log_file = 'download_log.txt'
 
 
def log(message):
    timestamp = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime())
    with open(log_file, 'a') as f:
        f.write(f'[{timestamp}] {message}\n')
    print(f'[{timestamp}] {message}') # 同时在控制台输出
 
 
 
def download_pdf(pdf_url, filename):
    try:
        response = requests.get(pdf_url, stream=True)
        response.raise_for_status() # 检查请求是否成功
        filepath = os.path.join(download_dir, filename)
        with open(filepath, 'wb') as f:
            for chunk in response.iter_content(chunk_size=8192): # 分块写入，避免大文件占用过多内存
                f.write(chunk)
        file_size = os.path.getsize(filepath)
        log(f'Downloaded: {filename}, Size: {file_size} bytes')
        return True, file_size
    except requests.exceptions.RequestException as e:
        log(f'Error downloading {filename}: {e}')
        return False, 0
    except Exception as e:
        log(f'Unexpected error downloading {filename}: {e}')
        return False, 0
 
 
 
# 获取网页内容
response = requests.get(url)
response.raise_for_status() # 检查请求是否成功
html = response.text
 
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, 'html.parser')
 
# 查找所有包含PDF链接的<a>标签
pdf_links = []
for a_tag in soup.find_all('a', href=True):
    href = a_tag['href']
    if href.endswith('.pdf'):
        # 补全URL
        if not href.startswith('http'):
            href = urljoin(url, href) # 使用urljoin更安全
        pdf_links.append(href)
 
 
from urllib.parse import urljoin
 
# 循环下载PDF文件
total_size = 0
downloaded_count = 0
 
for pdf_url in pdf_links:
    # 从URL中提取文件名
    filename = os.path.basename(pdf_url)
    # 确保文件名唯一，避免覆盖
    filepath = os.path.join(download_dir, filename)
    if os.path.exists(filepath):
        filename, ext = os.path.splitext(filename)
        filename = f'{filename}_{int(time.time())}{ext}' # 添加时间戳
 
    success, file_size = download_pdf(pdf_url, filename)
    if success:
        total_size += file_size
        downloaded_count += 1
    time.sleep(1) # 暂停1秒，避免过于频繁的请求
 
 
log(f'Downloaded {downloaded_count} PDFs, Total size: {total_size} bytes')
print('Download completed!')

代码解释：

导入库: 导入requests, BeautifulSoup, os, time库。
定义变量: 定义目标网站URL，下载目录，日志文件。
log函数: 用于记录下载信息到日志文件，并同时在控制台输出，方便查看。
download_pdf函数: 下载单个PDF文件，并记录下载时间和文件大小。使用了try...except块来处理可能出现的异常，例如网络错误。还使用了response.iter_content分块下载，避免大文件占用过多内存。
获取网页内容: 使用requests.get获取网页HTML内容。
解析HTML: 使用BeautifulSoup解析HTML，并找到所有包含.pdf后缀的<a>标签。
循环下载: 循环遍历所有PDF链接，调用download_pdf函数下载文件。
urljoin: 使用urllib.parse.urljoin来安全地补全URL，确保相对链接也能正确下载。
文件名去重: 在保存文件之前，检查文件名是否已存在，如果存在，则添加时间戳以避免覆盖。
下载统计: 记录下载的文件数量和总大小，并在下载完成后输出。
下载延迟: 在每次下载后暂停1秒，避免对网站造成过大的压力。

4. 运行代码：见证奇迹的时刻

将代码保存为pdf_downloader.py，然后在终端运行：

python pdf_downloader.py

程序将会自动下载目标网站上的所有PDF文件，并保存到downloaded_pdfs目录下。同时，下载时间和文件大小会记录在download_log.txt文件中。

5. 进阶技巧：更上一层楼

文件类型分类: 可以根据PDF文件的名称或内容，将其分类存储到不同的子目录中。例如，可以创建一个分类PDF函数，根据关键词判断PDF类型，创建对应的文件夹，并将PDF保存到该文件夹中。
多线程下载: 使用多线程或异步IO可以显著提高下载速度。可以使用threading模块或asyncio库实现多线程下载。
错误处理: 完善错误处理机制，例如，当下载失败时，可以尝试重新下载，或者记录错误信息到日志文件中。
用户界面: 使用Tkinter或PyQt等库创建一个图形用户界面，让用户可以更方便地设置下载参数和查看下载进度。
Selenium: 对于需要JavaScript动态生成的PDF链接，可以使用Selenium模拟浏览器行为来获取链接。
配置文件: 将URL、下载目录等参数配置到文件中，方便修改和管理。

6. 注意事项：安全第一

遵守网站的robots.txt协议: 在爬取网站之前，应该先查看网站的robots.txt文件，了解网站允许哪些内容被爬取。
避免过于频繁的请求: 过于频繁的请求可能会对网站造成压力，甚至被网站封禁IP。应该设置合理的请求间隔，避免对网站造成不必要的影响。
尊重网站的版权: 下载的PDF文件可能受到版权保护，请尊重网站的版权声明，不要用于商业用途。

7. 总结：学以致用，其乐无穷

通过本文的学习，你已经掌握了使用Python编写自动化PDF下载器的基本方法。希望你能将这些知识应用到实际工作中，提高工作效率。记住，编程的乐趣在于不断学习和实践！

码农小飞 Python PDF下载自动化网络爬虫 BeautifulSoup

	import requests
	from bs4 import BeautifulSoup
	import os
	import time

	# 目标网站URL
	url = 'https://example.com/pdfs'

	# 下载目录
	download_dir = 'downloaded_pdfs'
	if not os.path.exists(download_dir):
	os.makedirs(download_dir)

	# 创建日志文件
	log_file = 'download_log.txt'


	def log(message):
	timestamp = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime())
	with open(log_file, 'a') as f:
	f.write(f'[{timestamp}] {message}\n')
	print(f'[{timestamp}] {message}') # 同时在控制台输出



	def download_pdf(pdf_url, filename):
	try:
	response = requests.get(pdf_url, stream=True)
	response.raise_for_status() # 检查请求是否成功
	filepath = os.path.join(download_dir, filename)
	with open(filepath, 'wb') as f:
	for chunk in response.iter_content(chunk_size=8192): # 分块写入，避免大文件占用过多内存
	f.write(chunk)
	file_size = os.path.getsize(filepath)
	log(f'Downloaded: {filename}, Size: {file_size} bytes')
	return True, file_size
	except requests.exceptions.RequestException as e:
	log(f'Error downloading {filename}: {e}')
	return False, 0
	except Exception as e:
	log(f'Unexpected error downloading {filename}: {e}')
	return False, 0



	# 获取网页内容
	response = requests.get(url)
	response.raise_for_status() # 检查请求是否成功
	html = response.text

	# 使用BeautifulSoup解析HTML
	soup = BeautifulSoup(html, 'html.parser')

	# 查找所有包含PDF链接的<a>标签
	pdf_links = []
	for a_tag in soup.find_all('a', href=True):
	href = a_tag['href']
	if href.endswith('.pdf'):
	# 补全URL
	if not href.startswith('http'):
	href = urljoin(url, href) # 使用urljoin更安全
	pdf_links.append(href)


	from urllib.parse import urljoin

	# 循环下载PDF文件
	total_size = 0
	downloaded_count = 0

	for pdf_url in pdf_links:
	# 从URL中提取文件名
	filename = os.path.basename(pdf_url)
	# 确保文件名唯一，避免覆盖
	filepath = os.path.join(download_dir, filename)
	if os.path.exists(filepath):
	filename, ext = os.path.splitext(filename)
	filename = f'{filename}_{int(time.time())}{ext}' # 添加时间戳

	success, file_size = download_pdf(pdf_url, filename)
	if success:
	total_size += file_size
	downloaded_count += 1
	time.sleep(1) # 暂停1秒，避免过于频繁的请求


	log(f'Downloaded {downloaded_count} PDFs, Total size: {total_size} bytes')
	print('Download completed!')

Python实战：编写自动化PDF下载器，告别手动，效率翻倍！

1. 准备工作：磨刀不误砍柴工

2. 分析目标网站：知己知彼，百战不殆

3. 代码实现：一步一个脚印

4. 运行代码：见证奇迹的时刻

5. 进阶技巧：更上一层楼

6. 注意事项：安全第一

7. 总结：学以致用，其乐无穷

1. 准备工作：磨刀不误砍柴工

2. 分析目标网站：知己知彼，百战不殆

3. 代码实现：一步一个脚印

4. 运行代码：见证奇迹的时刻

5. 进阶技巧：更上一层楼

6. 注意事项：安全第一

7. 总结：学以致用，其乐无穷

评论点评