[C#] HTML 에서 Text만 추출

/// <summary>
/// HTML 에서 Text만 추출한다.
/// </summary>
/// <param name="Html"></param>
/// <returns></returns>
public static string StripHtml(string Html)
{
	string output = Html;

	output = System.Text.RegularExpressions.Regex.Replace(output, "<br>", Environment.NewLine);
	output = System.Text.RegularExpressions.Regex.Replace(output, "<br/>", Environment.NewLine);
	output = System.Text.RegularExpressions.Regex.Replace(output, "<br />", Environment.NewLine);

	//get rid of HTML tags
	output = System.Text.RegularExpressions.Regex.Replace(output, "<[^>]*>", string.Empty);
	//get rid of multiple blank lines
	output = System.Text.RegularExpressions.Regex.Replace(output, @"^\s*$\n", string.Empty, System.Text.RegularExpressions.RegexOptions.Multiline);

	output = System.Text.RegularExpressions.Regex.Replace(output, "&nbsp;", " ");
	return output;
}
이전글
다음글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다