分享

使用HtmlAgility和ScrapySharp 读取Select中Option的文本值 | 大想...

 黄金屋1 2019-05-27

ScrapySharp 对HtmlAgility的功能进行了扩展, 应用类似JQuery一样的方式通过css selector来选择html里面的元素。个人认为这样操作封装了HtmlAgility使用上的细节,而且显得更加的面向对象,更加的直观和简便。

比如对于这样的一段html:

1
2
3
4
5
6
7
8
9
<select id='someid'>
<option selected value='0'>所有地区</option>
<option value='1' >广东省</option>
<option value='2' >广西省</option>
<option value='3' >北京</option>
<option value='4' >上海</option>
<option value='5' >福建省</option>
<option value='6' >江西省</option>
</select>

使用HtmlAgility来获取value以及对应的文本值的写法可以是这样的:

1
2
3
4
5
6
7
8
9
10
                HtmlWeb web = new HtmlWeb();
                web.OverrideEncoding = System.Text.Encoding.Default;
                HtmlDocument doc = web.Load(url);
                HtmlNodeCollection nc = doc.DocumentNode.SelectNodes('//select[@id=\'someid\']/option');
                foreach (HtmlNode n in nc)
                {
                    Console.WriteLine(n.Attributes['value'].Value);
                    Console.WriteLine(n.NextSibling.InnerText);
                }

而使用ScrapySharp则可以是这样做:

1
2
3
4
5
6
7
8
9
10
                ScrapingBrowser Browser = new ScrapingBrowser();
                WebPage PageResult = Browser.NavigateToPage(new Uri(url));
                var searchDropdownBox = PageResult.Html.CssSelect('#someid').First();
                var options = searchDropdownBox.CssSelect('option');
                foreach (var option in options)
                {
                    string value = option.GetAttributeValue('value');
                    string text = option.NextSibling.InnerText;
                }

喜欢哪种方式那是因人而异了。

不过这里要注意的是, 要获取option的文本需要用到NextSibling.InnerText。 对于不熟悉的朋友可能要折腾一阵子。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多