Зареждам csv файл с 1 милион записа, използвайки pyspark, но получавам грешката. TextParsingException: Дължината на анализирания вход (1000001) надвишава максималния брой знаци, дефиниран в настройките на вашия анализатор (1000000)
Проверих дали някой от записите ми във файла има данни, по-големи от 1000000 знака, но нито един запис не е такъв. максималната дължина на записа в моя файл е 850.
Моля помогнете....
CODE SNIPPET:
input_df = spark.read.format('com.databricks.spark.csv').option("delimiter","\001").option("quote",u"\u0000").load(INPUT_PATH)
input_df.write.mode('overwrite').format('orc').save(TARGET_LOC)
SAMPLE DATA
A B C
-- -- --
a xyz"a 123
b pqr 456
c ABC"z 789
\001
, докато разделителят на вашите примерни данни изглежда е\t
. Кой е правилният разделител? - person Bala   schedule 05.03.2018