截断包含HTML的文本，忽略标签

假设您使用的是有效的XHTML，则解析HTML并确保正确处理标签非常简单。您只需要跟踪到目前为止已打开的标签，并确保“在您出门时”再次将其关闭。

<?PHP
header('Content-type: text/plain; charset=utf-8');

function printTruncated($maxLength, $html, $isUtf8=true)
{
    $printedLength = 0;
    $position = 0;
    $tags = array();

    // For UTF-8, we need to count multibyte sequences as one character.
    $re = $isUtf8
        ? '{</?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;|[\x80-\xFF][\x80-\xBF]*}'
        : '{</?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;}';

    while ($printedLength < $maxLength && preg_match($re, $html, $match, PREG_OFFSET_CAPTURE, $position))
    {
        list($tag, $tagPosition) = $match[0];

        // Print text leading up to the tag.
        $str = substr($html, $position, $tagPosition - $position);
        if ($printedLength + strlen($str) > $maxLength)
        {
            print(substr($str, 0, $maxLength - $printedLength));
            $printedLength = $maxLength;
            break;
        }

        print($str);
        $printedLength += strlen($str);
        if ($printedLength >= $maxLength) break;

        if ($tag[0] == '&' || ord($tag) >= 0x80)
        {
            // Pass the entity or UTF-8 multibyte sequence through unchanged.
            print($tag);
            $printedLength++;
        }
        else
        {
            // Handle the tag.
            $tagName = $match[1][0];
            if ($tag[1] == '/')
            {
                // This is a closing tag.

                $openingTag = array_pop($tags);
                assert($openingTag == $tagName); // check that tags are properly nested.

                print($tag);
            }
            else if ($tag[strlen($tag) - 2] == '/')
            {
                // Self-closing tag.
                print($tag);
            }
            else
            {
                // opening tag.
                print($tag);
                $tags[] = $tagName;
            }
        }

        // Continue after the tag.
        $position = $tagPosition + strlen($tag);
    }

    // Print any remaining text.
    if ($printedLength < $maxLength && $position < strlen($html))
        print(substr($html, $position, $maxLength - $printedLength));

    // Close any open tags.
    while (!empty($tags))
        printf('</%s>', array_pop($tags));
}


printTruncated(10, '<b>&lt;Hello&gt;</b> <img src="world.png" alt="" /> world!'); print("\n");

printTruncated(10, '<table><tr><td>Heck, </td><td>throw</td></tr><tr><td>in a</td><td>table</td></tr></table>'); print("\n");

printTruncated(10, "<em><b>Hello</b>&#20;w\xC3\xB8rld!</em>"); print("\n");

：上面的代码假定XHTML是UTF-8编码的。还支持ASCII兼容的单字节编码，只需将其false作为第三个参数传递即可。不支持其他多字节编码，尽管您可能会mb_convert_encoding在调用该函数之前先转换为UTF-8，然后在每个print语句中再次转换回去，从而获得支持。

（不过，您应该始终使用UTF-8。）

：更新为处理字符实体和UTF-8。修复了以下错误：如果该字符是一个字符实体，该函数将打印一个字符过多。

其他 2022/1/1 18:15:59 有586人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

截断包含HTML的文本，忽略标签

撰写回答

推荐问题

如何截断PHP中最接近一定数量字符的字符串？

长整数在插入较短的列时会被转换，但不会被截断。为什么？公式是什么？

ajax请求下载一个excel文件正向我显示截断的响应

带有点（。）的Spring MVC @PathVariable被截断

请求参数值包含空格时将被截断到第一部分

MySQL：ALTER IGNORE TABLE ADD UNIQUE，什么会被截断？

截断长字符串的聪明方法

将多字节字符串截断为n个字符

MYSQL截断了错误的DOUBLE值

截断两位小数而不四舍五入

截断包含HTML的文本，忽略标签

如何从.NET DateTime截断毫秒数

错误代码1292-截断了错误的DOUBLE值-MySQL

带有点（.）的Spring MVC@PathVariable被截断

Bootstrap 3以响应方式截断表行内的长文本

MySQL太长的varchar截断/错误设置

在使用文件时截断文件（Linux）

数据截断：数据太长，导致第1行的“徽标”列

Java用省略号截断字符串的理想方法

数据截断：错误的日期时间值：“

分类汇总

您的鼓励是对我最大的支持