Я загружаю файл csv в кодировке utf-8 с кириллическими строками. После парсинга в интерфейсе Flow - вижу не кириллицу, но не читаемые символы типа "пїўпѕЂпѕ™пїђпѕ" Как мне использовать кириллические строки utf-8 в H2O?
Строковая кодировка UTF-8 с кириллицей в H2O
comment
Было бы хорошо добавить код в ваш вопрос.
- person M.Qasim   schedule 26.06.2017
comment
Похоже, ваш файл закодирован в UTF-8, но вы используете другую кодировку для его декодирования, например, Windows-1251. Вам нужно выяснить, как заставить H2O использовать кодировку UTF-8 для декодирования файлов, возможно, здесь.
- person weibeld   schedule 26.06.2017
comment
Это был файл csv с кодировкой UTF-8 в Ubuntu 14.04. В gedit я вижу кириллические строки без ошибок. После разбора в потоке h2o я вижу нечитаемые символы.
- person Александр Щегло&   schedule 27.06.2017
Ответы (2)
Похоже, это ошибка в интерфейсе Flow, но только в команде setupParse. Если вы продолжите и выполните импорт, данные будут импортированы правильно.
Я сообщил об ошибке с тестовыми данными и снимками экрана (сделанными в Firefox) здесь:
https://0xdata.atlassian.net/browse/PUBDEV-4640
Поэтому, если у вас есть дополнительная информация или ошибка ведет себя по-другому для вас, было бы хорошо добавить ее в отчет об ошибке.
person
Darren Cook
schedule
29.06.2017
проверьте свой csv-файл в текстовом и двоичном представлении, чтобы узнать, как закодирован кириллический текст, если это UTF-8, он должен выглядеть так:
Привет
за слово
Привет
person
Smike
schedule
27.06.2017
Если вы загрузите файл UTF-8 в любом редакторе или средстве просмотра, поддерживающем UTF-8, вы просто увидите текст, который вы ожидаете. То, что вы показали, - это способ кодирования unicode на странице html, если вы не можете вводить символы.
- person Darren Cook; 28.06.2017