Python实现的网页爬虫示例- 惊觉

当然可以。以下是一个使用Python实现的基础网页爬虫示例。这个示例将使用requests库来发送HTTP请求，并使用BeautifulSoup库来解析HTML文档。如果你还没有安装这两个库，请先使用pip进行安装：

pip install requests beautifulsoup4

接下来是网页爬虫的示例代码：

import requests
from bs4 import BeautifulSoup

# 目标网页的URL
url = 'http://example.com'

# 发送HTTP请求
response = requests.get(url)

# 确保请求成功
if response.status_code == 200:
    # 使用BeautifulSoup解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 提取网页标题
    title = soup.title.string if soup.title else 'No title found'
    print(f'网页标题: {title}')
    
    # 提取所有的段落文本
    paragraphs = soup.find_all('p')
    for p in paragraphs:
        print(f'段落内容: {p.get_text().strip()}')
else:
    print(f'请求失败，状态码: {response.status_code}')

这个示例首先定义了目标网页的URL，然后使用requests.get函数发送HTTP GET请求到该URL。如果服务器响应状态码为200，表示请求成功，接着使用BeautifulSoup来解析返回的HTML内容。

在解析后的HTML文档中，我们首先尝试提取网页的标题。如果存在标题标签(<title>)，我们就获取其文本内容；如果不存在，则输出"No title found"。

接下来，我们使用find_all方法查找所有的段落标签(<p>)，并遍历它们，获取每个段落的文本内容并打印出来。

请注意，这个示例仅用于教学目的，实际的网页爬虫可能需要处理更复杂的情况，如登录认证、动态加载的内容、遵守robots.txt协议等。同时，出于对网站资源的尊重和合法性的考虑，你应该确保你的爬虫行为符合相关法律法规和网站的使用条款。

转载自CSDN-专业IT技术社区

原文链接：https://blog.csdn.net/qq_33877849/article/details/137203580

Python实现的网页爬虫示例

评论

评论列表

微信小程序

QQ小程序

关于作者