Я работаю над синтаксическим анализатором PHP, который анализирует страницу HTML-групп моей школы. Это страницы с уникальным URL-адресом, основанным на названии курса и нескольких других переменных. Страница состоит из набора HTML <table>
.
Загрузка HTML из URL-адреса работает нормально, пока не встретит )
в содержимом файла. Затем он просто перестает загружаться и сохраняет только то, что уже получил. Очевидно, что загруженный HTML-код был создан не мной, и я никак не могу предотвратить появление таких символов в HTML-коде.
Однако он отлично работает, когда я запускаю его локально с помощью MAMP. Я пытался найти ответы, но не нашел ничего, что решило бы мою проблему.
Как я могу избежать этих символов перед загрузкой?
Мой текущий PHP:
$dom = new DOMDocument;
libxml_use_internal_errors(true); // the HTML i parse contains a lot of unclosed tags, this to prevent the errors from displaying on the page
$dom->loadHTMLFile('http://isarog.hhs.nl/Web_Site/HHS/ICTM/Public/Iris_Roster/Timetables/11_2/11_2-CMD-4vt-p2.html');
echo $dom->getElementsByTagName('html')->item(0)->nodeValue;
<html>
nodeValue
, он показывает все до тех пор, пока эта скобка не вступит в игру. - person Joey   schedule 22.11.2011.. <TD>Senad Mato):evic</TD> ..
. При распечатке отображается:.. <TD>Senad Mato
Сейчас попробую ту же страницу. - person Joey   schedule 22.11.2011