Код ошибки: Inavlid при загрузке данных в BigQuery

У меня есть большой CSV-файл (почти 10 000 строк), и я пытаюсь загрузить его в BigQuery, но он выдает такую ​​ошибку:

ile-00000000: таблица CSV ссылается на позицию столбца 8, но строка, начинающаяся с позиции: 622, содержит только 8 столбцов. (код ошибки: недопустимый)

Может кто-нибудь, пожалуйста, скажите мне, как это можно рассуждать? Я дважды проверил свою схему, и все в порядке.

Спасибо


person Research 2    schedule 09.11.2016    source источник
comment
Попробуйте образец и посмотрите, работает ли он с 5 линиями. Если это работает, а весь набор данных нет, значит, где-то у вас есть ломаная линия. Дайте мне знать, как прошло с 5 строками?   -  person Pentium10    schedule 09.11.2016
comment
У меня точно такая же проблема, какое решение? Поскольку BigQuery перемешивает строки (я полагаю), в некоторых случаях он может прочитать LIMIT 10 строк из GSC. Но в большинстве случаев выдает эту ошибку. В моем файле в формате CSV есть поле целиком в двойных кавычках, но это не должно быть проблемой.   -  person mel    schedule 16.11.2016
comment
На ломаную линию тоже не похоже. Я проверил контрольные символы.   -  person mel    schedule 16.11.2016
comment
кот myfile.csv | grep '[[: cntrl:]]' - ничего не возвращает   -  person mel    schedule 16.11.2016
comment
Учитывая, что у вас задействованы двойные кавычки, я бы поспорил, что что-то пошло не так с экранированием двойных кавычек, что привело к строке, содержащей двойные кавычки, что вызвало разделение данных строки или что-то в этом роде. Вы запускали какую-либо проверку файла, чтобы убедиться в его правильной схеме?   -  person Nick    schedule 27.01.2017
comment
Эта проблема все еще возникает? Удалось найти решение?   -  person Nick    schedule 03.02.2017
comment
Если вы нашли решение, опубликуйте его как ответ.   -  person Nick    schedule 03.02.2017


Ответы (1)


У меня была такая же проблема при попытке импортировать большой набор данных из CSV в таблицу BigQuery.

Проблема оказалась в некоторых управляющих символах ascii (\ b, \ t, \ r, \ n) в данных, которые были записаны в csv. Когда csv отправлялся в BigQuery, эти символы заставляли синтаксический анализатор BiqQuery csv неверно интерпретировать строку и разрываться, поскольку данные не совпадали с количеством столбцов в заголовке.

Замена этих символов пробелом (для максимального сохранения форматирования) позволила мне импортировать данные без дальнейших проблем.

person Justin Mortensen    schedule 10.07.2018