开发手册 欢迎您!
软件开发者资料库

.Net(C#) Core安装使用AngleSharp解析html的方法及示例代码

AngleSharp目前有两种版本:Windows for .NET 4.6和一般目标.NET Standard 2.0平台。该库的大多数功能都不需要.NET 4.6,这意味着您可以创建自己的fork并对其进行修改以使用以前版本的.NET-Framework。本文主要介绍.Net(C#) Core中安装使用AngleSharp解析html的方法及示例代码。

1、通过NuGet获取AngleSharp

1)使用Nuget管理控制台

将AngleSharp集成到项目中的最简单方法是使用NuGet。您可以通过打开包管理器控制台(PM)并键入以下语句来安装AngleSharp:

Install-Package AngleSharp

2)使用Nuget图形管理器

使用Nuget的界面的管理器搜索"AngleSharp"=> 找到点出点击"安装"。

相关文档VS(Visual Studio)中Nuget的使用

2、使用AngleSharp解析html的示例

var source = @"      Error 404 (Not Found)!!1  www.google.com/>  

404. That’s an error.

The requested URL /error was not found on this server. That’s all we know.";//使用AngleSharp的默认配置var config = Configuration.Default;//使用给定的配置创建用于评估web页面的新上下文var context = BrowsingContext.New(config);//只需要获得DOM表示var document = await context.OpenAsync(req => req.Content(source));//将其序列化回控制台Console.WriteLine(document.DocumentElement.OuterHtml);

3、简单操作document(Dom文档)

static async Task FirstExample(){    //使用AngleSharp的默认配置    var config = Configuration.Default;    //使用给定的配置创建用于评估web页面的新上下文    var context = BrowsingContext.New(config);    //从响应的内容解析文档到虚拟请求    var document = await context.OpenAsync(req => req.Content("

Some example source

This is a paragraph element")); //对文档执行如下操作 Console.WriteLine("Serializing the (original) document:"); Console.WriteLine(document.DocumentElement.OuterHtml); var p = document.CreateElement("p"); p.TextContent = "This is another paragraph."; Console.WriteLine("Inserting another element in the body ..."); document.Body.AppendChild(p); Console.WriteLine("Serializing the document again:"); Console.WriteLine(document.DocumentElement.OuterHtml);}

4、获取html中的元素

static async Task UsingLinq(){    //使用默认配置创建一个用于评估web页面的新上下文    var context = BrowsingContext.New(Configuration.Default);    //根据虚拟请求/响应模式创建文档    var document = await context.OpenAsync(req => req.Content("
  • First item
  • Second item
  • Third item!
  • Last item!
")); //对LINQ做点什么 var blueListItemsLinq = document.All.Where(m => m.LocalName == "li" && m.ClassList.Contains("blue")); //或者直接使用CSS选择器 var blueListItemsCssSelector = document.QuerySelectorAll("li.blue"); Console.WriteLine("Comparing both ways ..."); Console.WriteLine(); Console.WriteLine("LINQ:"); foreach (var item in blueListItemsLinq) { Console.WriteLine(item.Text()); } Console.WriteLine(); Console.WriteLine("CSS:"); foreach (var item in blueListItemsCssSelector) { Console.WriteLine(item.Text()); }}static async Task SingleElements(){ //使用默认配置创建一个用于评估web页面的新上下文 var context = BrowsingContext.New(Configuration.Default); //创建一个新文档 var document = await context.OpenAsync(req => req.Content("This is some bold and italic text!")); var emphasize = document.QuerySelector("em"); Console.WriteLine("Difference between several ways of getting text:"); Console.WriteLine(); Console.WriteLine("Only from C# / AngleSharp:"); Console.WriteLine(); Console.WriteLine(emphasize.ToHtml()); // bold and italic Console.WriteLine(emphasize.Text()); // bold and italic Console.WriteLine(); Console.WriteLine("From the DOM:"); Console.WriteLine(); Console.WriteLine(emphasize.InnerHtml); // bold and italic Console.WriteLine(emphasize.OuterHtml); // bold and italic Console.WriteLine(emphasize.TextContent);// bold and italic}

参考文档https://anglesharp.github.io/docs/Examples.html