Как автоматизираното копиране и форматиране може да рационализира процеса на доставка на вашите данни

В днешната бизнес среда, управлявана от данни, важността на качествените данни не може да бъде надценена. Като такива, фирмите разчитат на доверени източници, за да им предоставят точна и навременна информация. Един такъв източник са данните от UCC (Uniform Commercial Code), които предоставят ценна информация за финансовото състояние на бизнеса в различни индустрии. Въпреки това, ръчното събиране и форматиране на данни, свързани с UCC, може да бъде отнемащ време и досаден процес. За щастие, автоматизираното копиране и форматиране може да помогне за рационализиране на този процес и предоставяне на висококачествени данни на бизнеса.

Наскоро един от моите клиенти поиска висококачествени данни, свързани с UCC, по-специално изчерпване на UCC компании за определена индустрия и изпращане на 20 потенциални клиенти на ден, заедно с информация за контакт за всяка компания. Тази текуща услуга изискваше скорошни данни, така че започнах с информация от последния месец, за да осигуря достатъчно голям набор от данни, за да отговоря на техните нужди. За щастие, вече бях разработил скрепери за Флорида, Северна Каролина и Аризона, което означаваше, че трябва само да създам филтър въз основа на името на компанията, за да намеря компании в избраната индустрия. Освен това вече бях създал скрепери за извличане на информация за контакт от държавни хранилища за тези компании, спестявайки ми време и ресурси.

Използвайки автоматизирани инструменти за изчерпване, успях да събера около 800 посещения за избраната от моя клиент индустрия от тези три щата само за един ден. След това разделих данните на секции от 20 реда и ги форматирах с помощта на ChatGPT, за да разделя файла и да го форматирам правилно. Получените данни бяха записани в множество файлове, всеки с 20 реда и името на държавата и датата, като се пропускат датите през уикенда.

import pandas as pd
from openpyxl import load_workbook
from openpyxl.utils import get_column_letter
from openpyxl.styles import Alignment
from datetime import date, timedelta

# Replace 'your_dataframe' with the actual name of your DataFrame
df = your_dataframe

# Function to check if a date is a weekend
def is_weekend(date):
    return date.weekday() >= 5

# Split DataFrame into chunks of 20 rows each
def split_dataframe(dataframe, chunk_size=20):
    num_chunks = -(-len(dataframe) // chunk_size)
    return [dataframe[i * chunk_size : (i + 1) * chunk_size] for i in range(num_chunks)]

df_chunks = split_dataframe(df)

# Set the start date for filenames
start_date = date(2023, 4, 19)

# Create Excel files for each chunk, skipping weekend dates
file_count = 0
while file_count < len(df_chunks):
    if is_weekend(start_date):
        start_date += timedelta(days=1)
        continue

    filename = f"Florida_{start_date.strftime('%m%d%y')}.xlsx"
    df_chunks[file_count].to_excel(filename, index=False, engine='openpyxl')

    # Adjust column widths and text wrapping
    workbook = load_workbook(filename)
    worksheet = workbook.active

    for column_cells in worksheet.columns:
        column_letter = column_cells[0].column_letter
        if column_letter in ["I", "J", "K"]:
            for cell in column_cells:
                cell.alignment = Alignment(wrap_text=True)
            worksheet.column_dimensions[column_letter].width = 35
        else:
            max_length = max(len(str(cell.value)) for cell in column_cells)
            worksheet.column_dimensions[column_letter].width = max_length + 1

    workbook.save(filename)

    file_count += 1
    start_date += timedelta(days=1)

За да рационализирам допълнително процеса на доставка на данни, съставих имейл в Google и го планирах да се доставя по различно време сутрин на дневна база през следващите 30 дни. Въпреки че изпълних тази задача ръчно, в момента проучвам възможността за автоматизиране на този процес.

Чрез използването на автоматизирани инструменти за копиране и форматиране, фирмите могат да спестят ценно време и ресурси, като същевременно предоставят висококачествени данни на своите клиенти. Автоматизираните инструменти позволяват на бизнеса бързо и ефективно да събира и форматира данни, което води до по-точна и навременна информация за клиентите. В заключение, използването на автоматизирани инструменти за копиране и форматиране на данни, свързани с UCC, може да помогне на бизнеса да рационализира процеса на доставка на данни, което им позволява да се съсредоточат върху това, което правят най-добре – обслужване на своите клиенти.

Повече съдържание в PlainEnglish.io. Регистрирайте се за нашия безплатен седмичен бюлетин. Присъединете се към нашата общност Discord и ни последвайте в Twitter, LinkedIn и YouTube.

Научете как да изградите осведоменост и приемане за вашия стартъп с Circuit.