Импорт CSV-файла с определенными разделителями в Talend

У меня есть файл CSV с необычными разделителями, который я хочу проанализировать с помощью Talend. Обычно, когда у нас есть CSV с символами «возврата каретки» в качестве разделителя строк, я использую «\ n». Когда это файл с разделителями табуляции, я использую "\ t" и так далее. Но теперь у меня есть файл с необычными персонажами. Википедия научила меня, что это так называемые «управляющие символы». У меня вопрос, как я могу упомянуть эти символы в компоненте tFileDelimitedInput в Talend (см. Снимок экрана 2). Вместо символа новой строки (\ n) я должен использовать управляющий символ STX, но как мне сказать Talend, какой это символ? Какое обозначение "\ n" в первую очередь?

Пример файла:

https://dl.dropbox.com/u/1757832/talendSeparators1.jpg

Компонент tFileDelimitedInput в Talend, где я должен ввести символы разделителя строк и разделителей полей.

https://dl.dropbox.com/u/1757832/talendSeparators2.jpg


person Rogier Lommers    schedule 09.01.2013    source источник


Ответы (1)


Вы пробовали создать tFileDelimitedInputmetadata для этого файла?

При этом у вас есть больше возможностей (см. Прикрепленное изображение).

введите описание изображения здесь

РЕДАКТИРОВАТЬ:

Вот список UTF-8 соответствующих кодов управляющих символов:

SOH: начало заголовка: http://www.fileformat.info/info/unicode/char/0001/index.htm STX: начало текста: http://www.fileformat.info/info/unicode/char/0002/index.htm

Вы также пробовали использовать эти коды UTF-8?

ИЗМЕНИТЬ 2 С решением:

Вот файл с разделителем полей STX

Содержимое файла

Я определил простую схему tFileInputDelimited с двумя столбцами (ключ и значение являются строками).

Затем я установил:

  1. разделитель строк как "\n"
  2. разделитель полей как new String("\u0002")

Тогда у меня правильное поведение:

.----+------.
| tLogRow_1 |
|=---+-----=|
|key |value |
|=---+-----=|
|key1|value1|
|key2|value2|
'----+------'
person Jean-Michel Garcia    schedule 09.01.2013
comment
Извините за мою позднюю реакцию, но, к сожалению, я не могу добавить эти символы в Talend в качестве разделителей полей или разделителей строк. Talend выдает ошибку: недопустимая escape-последовательность (допустимые: \ b \ t \ n \ f \ r \ \ '\\) - person Rogier Lommers; 22.01.2013
comment
Вы сделали мой день! Работает как шарм! См .: ссылка. - person Rogier Lommers; 24.01.2013
comment
Здорово. Не забудьте принять ответ, если его содержание вам помогло. - person Jean-Michel Garcia; 24.01.2013