Строковая кодировка UTF-8 с кириллицей в H2O

Я загружаю файл csv в кодировке utf-8 с кириллическими строками. После парсинга в интерфейсе Flow - вижу не кириллицу, но не читаемые символы типа "пїўпѕЂпѕ™пїђпѕ" Как мне использовать кириллические строки utf-8 в H2O?


person Александр Щегло&    schedule 26.06.2017    source источник
comment
Было бы хорошо добавить код в ваш вопрос.   -  person M.Qasim    schedule 26.06.2017
comment
Похоже, ваш файл закодирован в UTF-8, но вы используете другую кодировку для его декодирования, например, Windows-1251. Вам нужно выяснить, как заставить H2O использовать кодировку UTF-8 для декодирования файлов, возможно, здесь.   -  person weibeld    schedule 26.06.2017
comment
Это был файл csv с кодировкой UTF-8 в Ubuntu 14.04. В gedit я вижу кириллические строки без ошибок. После разбора в потоке h2o я вижу нечитаемые символы.   -  person Александр Щегло&    schedule 27.06.2017


Ответы (2)


Похоже, это ошибка в интерфейсе Flow, но только в команде setupParse. Если вы продолжите и выполните импорт, данные будут импортированы правильно.

Я сообщил об ошибке с тестовыми данными и снимками экрана (сделанными в Firefox) здесь:

https://0xdata.atlassian.net/browse/PUBDEV-4640

Поэтому, если у вас есть дополнительная информация или ошибка ведет себя по-другому для вас, было бы хорошо добавить ее в отчет об ошибке.

person Darren Cook    schedule 29.06.2017

проверьте свой csv-файл в текстовом и двоичном представлении, чтобы узнать, как закодирован кириллический текст, если это UTF-8, он должен выглядеть так:

Привет

за слово

Привет

person Smike    schedule 27.06.2017
comment
Если вы загрузите файл UTF-8 в любом редакторе или средстве просмотра, поддерживающем UTF-8, вы просто увидите текст, который вы ожидаете. То, что вы показали, - это способ кодирования unicode на странице html, если вы не можете вводить символы. - person Darren Cook; 28.06.2017