爬虫python代码

温馨提示：这篇文章已超过239天没有更新，请注意相关的内容是否还可用！

爬虫是一种自动化程序，用于从互联网上获取数据。Python是一种广泛使用的编程语言，也是爬虫开发中常用的工具之一。下面我将介绍一些常见的爬虫代码技巧。

我们需要导入一些必要的库。其中，requests库是用于发送HTTP请求的库，beautifulsoup库是用于解析HTML文档的库。


import requests
from bs4 import BeautifulSoup

接下来，我们需要指定要爬取的网页的URL，并发送一个HTTP GET请求来获取网页的内容。


url = "https://example.com"
response = requests.get(url)

然后，我们可以使用beautifulsoup库来解析网页的内容。通过指定解析器，我们可以将网页内容转换为一个可以操作的对象。


soup = BeautifulSoup(response.text, "html.parser")

现在，我们可以使用beautifulsoup提供的方法来提取我们感兴趣的内容。例如，我们可以通过标签名来获取所有的链接。


links = soup.find_all("a")
for link in links:
    print(link.get("href"))

除了标签名，我们还可以使用CSS选择器来定位元素。例如，我们可以通过类名来获取所有具有特定类的元素。


elements = soup.select(".class-name")
for element in elements:
    print(element.text)

有时候我们需要模拟登录或者发送POST请求来获取数据。在这种情况下，我们可以使用requests库来发送包含表单数据的POST请求。


url = "https://example.com/login"
data = {
    "username": "your-username",
    "password": "your-password"
}
response = requests.post(url, data=data)

为了避免对网站造成过大的负担或被封禁，我们还应该设置合适的请求头和延时。设置请求头可以模拟浏览器的行为，而延时可以控制请求的频率。


headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
response = requests.get(url, headers=headers)
import time
time.sleep(1)  # 延时1秒

我们可以将爬取到的数据保存到本地文件或者数据库中，以便后续处理或分析。


with open("data.txt", "w") as file:
    file.write(response.text)
import sqlite3
conn = sqlite3.connect("data.db")
cursor = conn.cursor()
cursor.execute("CREATE TABLE IF NOT EXISTS data (id INTEGER PRIMARY KEY, content TEXT)")
cursor.execute("INSERT INTO data (content) VALUES (?)", (response.text,))
conn.commit()

总结一下，爬虫是一种获取互联网数据的技术，Python提供了丰富的库来实现爬虫功能。通过发送HTTP请求、解析HTML文档、定位元素等操作，我们可以获取到我们感兴趣的数据。为了避免对网站造成过大的负担，我们还应该设置合适的请求头和延时。我们可以将爬取到的数据保存到本地文件或者数据库中，以便后续处理或分析。

爬虫python代码

相关阅读