HTML 解析之 BeautifulSoup

作者：時間：2024-06-26 來源：嵌入式小小劉

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

在網頁數據采集、信息提取等應用場景中，對HTML文檔進行解析是一項至關重要的任務。BeautifulSoup 是 Python 中用于解析HTML和XML文檔的強大庫，提供了方便的API和豐富的功能，可幫助開發(fā)者輕松地從網頁中提取所需的數據。本文將介紹 BeautifulSoup 的基本用法、常見功能和實際應用，幫助讀者深入了解如何利用 BeautifulSoup 進行HTML解析，從而提高數據處理和信息提取的效率和準確性。

本文引用地址：http://m.butianyuan.cn/article/202406/460383.htm

一、基本用法

1.1 安裝和導入

要使用 BeautifulSoup 庫，首先需要安裝該庫?？梢允褂?pip 工具進行安裝：

pip install beautifulsoup4

安裝完成后，可以通過以下方式導入 BeautifulSoup：

from bs4 import BeautifulSoup

1.2 創(chuàng)建 BeautifulSoup 對象

通過將HTML文檔傳遞給 BeautifulSoup 構造函數，即可創(chuàng)建一個 BeautifulSoup 對象，用于后續(xù)的解析和操作：

html_doc = """<html><head><title>示例網頁</title></head><body><p class="title"><b>示例頁面內容</b></p><p class="content">這是一個示例網頁。</p></body></html>soup = BeautifulSoup(html_doc, 'html.parser')

二、常見功能

2.1 標簽選擇器

BeautifulSoup 支持通過標簽選擇器來定位HTML文檔中的標簽，從而提取所需信息。以下是標簽選擇器的常見用法：