.NET怎么解析HTML文档（如使用HtmlAgilityPack）

技术教程
2025-11-18 08:30:06

HtmlAgilityPack是.NET中解析HTML的常用库，支持从字符串、文件或URL加载HTML，利用XPath查询节点，可修改内容、属性及添加新节点，并能保存结果，适用于处理不规范HTML文档。

.net怎么解析html文档（如使用htmlagilitypack）

在 .NET 中解析 HTML 文档，最常用且功能强大的库是 HtmlAgilityPack。它允许你像操作 XML 一样加载、遍历和修改 HTML，即使文档格式不规范也能很好地处理。

1. 安装 HtmlAgilityPack

通过 NuGet 包管理器安装：

在 Visual Studio 的包管理器控制台运行：

Install-Package HtmlAgilityPack

或使用 .NET CLI：

dotnet add package HtmlAgilityPack

立即学习“前端免费学习笔记（深入）”；

2. 加载 HTML 文档

可以从字符串、文件或网络请求中加载 HTML。

从字符串加载：

var html = "<html><body><h1>Hello World</h1><p class='content'>This is a paragraph.</p></body></html>";<br>var doc = new HtmlDocument();<br>doc.LoadHtml(html);

从文件加载：

var doc = new HtmlDocument();<br>doc.Load("example.html");

从 URL 加载（需配合 HttpClient）：

using var client = new HttpClient();<br>var html = await client.GetStringAsync("https://example.com");<br>var doc = new HtmlDocument();<br>doc.LoadHtml(html);