Mình có đoạn code sau:
$text = file_get_contents('http://nhaxinh.com');
$pattern = '/<script.*?>+.*?<\/script>/';
$text = preg_replace($pattern, '', $text, -1, $count);
echo $count;
var_dump(htmlentities($text));
Dữ liệu lấy về có đến 19 đoạn bắt đầu bằng <script … nhưng đoạn regex của mình chỉ lọc được 5 cái…hjx hjx…Mình có test bằng cách copy text của đoạn html trên website và gán vào biến thì nó lại lọc được 19/19 luôn…vậy có phải vấn đề nằm ở đoạn file_get_contents ko? Vì sao nó lại bị như vậy?