как я могу определить кодировку веб-страницы

Я просто хочу получить источник веб-страницы на языке java, и я просто хочу получить этот контент с правильным типом кодировки. Я могу получить содержимое веб-страницы до сих пор. Но для некоторых веб-страниц содержание содержит абсурдные символы. Поэтому мне нужно определить кодировку этой веб-страницы.

Согласно моим небольшим исследованиям, я обнаружил, что для этого есть библиотека jChardet. Но я не мог импортировать его в свой проект. Кто-нибудь может мне помочь?

Кстати, приведенный ниже код — это код для чтения содержимого веб-страницы.

  StringBuilder builder = new StringBuilder(); 
  InputStream is = fURL.openStream();
  BufferedReader buffer = null;
  buffer = new BufferedReader(new InputStreamReader(is, encodingType));

  int byteRead;
  while ((byteRead = buffer.read()) != -1) {
    builder.append((char) byteRead);
  }
  buffer.close();  

  return builder;

brtb 26.12.2011 источник

Ответы (3)

arrow_upward
4
arrow_downward

Прочитайте заголовок Content-Type ответа HTTP, это лучший способ получить кодировку. Применяйте угадывание только тогда, когда у вас нет альтернатив — вы их делаете.

Tom van der Woerdt 26.12.2011

arrow_upward
1
arrow_downward

Вы также можете использовать http://jchardet.sourceforge.net/

private static String detectCharset(byte[] body) {
        nsDetector det = new nsDetector(nsPSMDetector.ALL);



        det.Init(new nsICharsetDetectionObserver() {

            public void Notify(String charset) {
                HtmlCharsetDetector.found = true;
            }
        });

        boolean done = false;
        boolean isAscii = true;

        if (isAscii) {
            isAscii = det.isAscii(body, body.length);
        }

        // DoIt if non-ascii and not done yet.
        if (!isAscii && !done) {
            done = det.DoIt(body, body.length, false);
        }

        return det.getProbableCharsets()[0];

    }

Fulvius 30.10.2014

arrow_upward
0
arrow_downward

Как минимум, вам нужно будет прочитать и проанализировать заголовки HTTP, чтобы увидеть, объявляют ли они кодировку в заголовках HTTP, и, при отсутствии такого объявления (довольно распространенное), проанализировать сам документ, чтобы найти тег meta, который объявляет кодировку. Для документов XHTML вам нужно будет проверить декларацию XML и по умолчанию использовать utf-8. Это по-прежнему оставит значительное количество страниц с необъявленной кодировкой, поэтому потребуются некоторые эвристики. Вы можете проверить раздел , посвященный кодировкам. в черновике HTML5, который также содержит некоторые эвристические переопределения (например, обработка iso-8859-1 как windows-1252).

Jukka K. Korpela 26.12.2011

как я могу определить кодировку веб-страницы

Ответы (3)

Похожие вопросы