C#でWebページを取得してh1の中身を抽出

Tetsuro Aoki 204views 更新:2015年9月29日

Webページを取得してh1タグの中身だけ抽出する方法です。
Regexクラスの初期化の際にオプションでSinglelineを設定するとh1タグ内で改行があったりしても上手く取得できます。

HttpWebRequest req = (HttpWebRequest)WebRequest.Create("https://***.***.***.***/");
HttpWebResponse res = (HttpWebResponse)req.GetResponse();
Stream stream = res.GetResponseStream();
StreamReader reader = new StreamReader(stream);
string content = reader.ReadToEnd();

System.Text.RegularExpressions.Regex pattern = new System.Text.RegularExpressions.Regex(@"<h1[^>]*>(.*)</h1>", System.Text.RegularExpressions.RegexOptions.Singleline);
System.Text.RegularExpressions.Match match = pattern.Match(content);
if (match.Success)
{
    string h1 = match.Groups[1].Value.Trim();
}

ログイン / 新規登録してコメントする

このソースコードをストックして後で利用したり、作業に利用したソースコードをまとめることができます。

こちらもお役に立つかもしれません