Как автоматизированная очистка и форматирование могут упростить процесс доставки данных

В современной бизнес-среде, основанной на данных, невозможно переоценить важность качественных данных. Таким образом, предприятия полагаются на надежные источники для предоставления им точной и своевременной информации. Одним из таких источников являются данные UCC (Uniform Commercial Code), которые дают ценную информацию о финансовом состоянии предприятий в различных отраслях. Однако ручной сбор и форматирование данных, связанных с UCC, может занять много времени и утомительно. К счастью, автоматизированная очистка и форматирование могут помочь упростить этот процесс и предоставить предприятиям высококачественные данные.

Недавно один из моих клиентов запросил высококачественные данные, связанные с UCC, в частности, изучая компании UCC для определенной отрасли и отправляя 20 потенциальных клиентов в день вместе с контактной информацией для каждой компании. Для этой постоянной службы требовались свежие данные, поэтому я начал с информации за последний месяц, чтобы предоставить достаточно большой пул данных для удовлетворения их потребностей. К счастью, я уже разработал парсеры для Флориды, Северной Каролины и Аризоны, а это означало, что мне нужно было только создать фильтр на основе названия компании, чтобы найти компании в выбранной отрасли. Кроме того, я уже создал парсеры для извлечения контактной информации этих компаний из государственных репозиториев, что сэкономило мне время и ресурсы.

Используя автоматизированные инструменты парсинга, я всего за день смог собрать около 800 обращений по отрасли, выбранной моим клиентом, из этих трех штатов. После этого я разделил данные на разделы по 20 строк и отформатировал их с помощью ChatGPT, чтобы разделить файл и правильно отформатировать его. Полученные данные были сохранены в нескольких файлах, в каждом из которых было по 20 строк, а также название штата и дата, пропуская даты выходных.

import pandas as pd
from openpyxl import load_workbook
from openpyxl.utils import get_column_letter
from openpyxl.styles import Alignment
from datetime import date, timedelta

# Replace 'your_dataframe' with the actual name of your DataFrame
df = your_dataframe

# Function to check if a date is a weekend
def is_weekend(date):
    return date.weekday() >= 5

# Split DataFrame into chunks of 20 rows each
def split_dataframe(dataframe, chunk_size=20):
    num_chunks = -(-len(dataframe) // chunk_size)
    return [dataframe[i * chunk_size : (i + 1) * chunk_size] for i in range(num_chunks)]

df_chunks = split_dataframe(df)

# Set the start date for filenames
start_date = date(2023, 4, 19)

# Create Excel files for each chunk, skipping weekend dates
file_count = 0
while file_count < len(df_chunks):
    if is_weekend(start_date):
        start_date += timedelta(days=1)
        continue

    filename = f"Florida_{start_date.strftime('%m%d%y')}.xlsx"
    df_chunks[file_count].to_excel(filename, index=False, engine='openpyxl')

    # Adjust column widths and text wrapping
    workbook = load_workbook(filename)
    worksheet = workbook.active

    for column_cells in worksheet.columns:
        column_letter = column_cells[0].column_letter
        if column_letter in ["I", "J", "K"]:
            for cell in column_cells:
                cell.alignment = Alignment(wrap_text=True)
            worksheet.column_dimensions[column_letter].width = 35
        else:
            max_length = max(len(str(cell.value)) for cell in column_cells)
            worksheet.column_dimensions[column_letter].width = max_length + 1

    workbook.save(filename)

    file_count += 1
    start_date += timedelta(days=1)

Чтобы еще больше упростить процесс доставки данных, я составил электронное письмо в Google и запланировал его доставку в разное время утром ежедневно в течение следующих 30 дней. Хотя я выполнил эту задачу вручную, в настоящее время я изучаю возможность автоматизации этого процесса.

Используя автоматизированные инструменты очистки и форматирования, предприятия могут сэкономить драгоценное время и ресурсы, предоставляя своим клиентам высококачественные данные. Автоматизированные инструменты позволяют предприятиям быстро и эффективно собирать и форматировать данные, что обеспечивает более точную и своевременную информацию для клиентов. В заключение можно сказать, что использование автоматизированных инструментов для извлечения и форматирования данных, связанных с UCC, может помочь компаниям оптимизировать процесс доставки данных, позволяя им сосредоточиться на том, что у них получается лучше всего — на обслуживании клиентов.

Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Присоединяйтесь к нашему сообществу Discord и следите за нами в Twitter, LinkedIn и YouTube.

Узнайте, как привлечь внимание к своему стартапу с помощью Circuit.