Итак, у меня есть большое количество файлов XML. В течение многих лет они вызывали проблемы, потому что люди, которые их писали, делали их вручную, поэтому ошибки, естественно, возникали. Пришло время проверить их и предоставить обратную связь о том, что не так при попытке использовать эти XML-файлы.
Я использую парсер SAX и получаю список ошибок.
Ниже мой код
BookValidationErrorHandler errorHandler = new BookValidationErrorHandler();
SAXParserFactory factory = SAXParserFactory.newInstance();
factory.setValidating(true);
factory.setNamespaceAware(true);
SchemaFactory schemaFactory =
SchemaFactory.newInstance("http://www.w3.org/2001/XMLSchema");
factory.setSchema(schemaFactory.newSchema(
new Source[] {new StreamSource("test.xsd")}));
javax.xml.parsers.SAXParser parser = factory.newSAXParser();
org.xml.sax.XMLReader reader = parser.getXMLReader();
reader.setErrorHandler(errorHandler);
reader.parse(new InputSource("bad.xml"));
Первая пара ошибок всегда:
Номер строки: 2: документ недействителен: грамматика не найдена. Номер строки: 2: корневой элемент документа "credits", должен соответствовать корневому элементу DOCTYPE "null".
Мы не можем пойти и отредактировать эти тысячи XML-файлов, которые необходимо проверить.
Есть ли что-нибудь, что я могу легко добавить в начало источника, чтобы предотвратить это? Есть ли способ сказать синтаксическому анализатору игнорировать эти ошибки, связанные с DTD? Даже не уверен, что имеется в виду под грамматикой. Я примерно понимаю, что означает второе.