使用HTML解析器代替正则表达式。对于Jsoup来说,这简直太简单了。
public static String html2text(String html) {
return Jsoup.parse(html).text();
}
Jsoup还支持对可定制的白名单,如果你希望只允许例如这是非常有用的去除HTML
标签<b>
,<i
>和<u>
。
如果你是为Android编写的,则可以这样做…
android.text.Html.fromHtml(instruction).toString()