„Обработка на естествен език“

GPT-3: Учен по данни в процес на създаване

Проучвателен анализ на данни с автопилот в pandas чрез използване на възможностите на най-сложния езиков модел в света GPT-3...

Предпоставки

Събрах точките под формата на статии, моля, прегледайте статиите по-долу в същия ред, за да свържете точките и да разберете ключовия технологичен стек зад интелигентнияKube Bot:

  1. FastAPI — Пикантният път отвъд Flask!
  2. Streamlit — революционно създаване на приложения за данни
  3. Кратко въведение в GPT-3

Въведение в Пандите

Pandas е бърз, мощен и лесен за използване инструмент за анализ и манипулиране на данни с отворен код, изграден върху езика за програмиране Python. Той е широко приет сред общността на Python и се използва в много други пакети, рамки и модули. Pandas е изключително гъвкава рамка и има широк набор от случаи на употреба за подготовка на данни за модели на машинно обучение и дълбоко обучение.

Инсталиране на панди

Pandas се предлага като стандартна библиотека на Python в PyPI, която може лесно да се инсталира с помощта на pip или conda в зависимост от средата на Python. Поради популярността на Pandas, той има свое собствено конвенционално съкращение, така че следната команда може да се използва за инсталиране на Pandas:

import pandas as pd

Какви данни могат да обработват пандите?

Ако работите с таблични данни, като данни в електронни таблици или бази данни, pandas е правилният инструмент за вас. С Pandas можете да изследвате, почиствате и обработвате вашите данни. В pandas една таблица с данни се нарича DataFrame.

Как да четем и записваме таблични данни с pandas?

Pandas поддържа интеграция с много файлови формати или източници на данни извън кутията (като CSV, excel, SQL, JSON, parquet и т.н.). Сравнително лесно и ясно е да импортирате данни от тези източници, като използвате префикса read_*. По подобен начин можем да използваме методите to_* за експортиране на данните в съответните формати.

Обзор на приложението

Сега ще ви преведа през GPT-3 powered pandas assistant приложение стъпка по стъпка:

Докато създавате GPT-3 приложение, първото и основно нещо, което трябва да имате предвид, е дизайнът и съдържанието на подканата за обучение. Бързото проектиране е най-важният процес при подготовката на модела GPT-3, за да даде благоприятен и контекстуален отговор.

Като основно правило, докато проектирате подканата за обучение, трябва да се стремите към получаване на нулев отговор от модела, ако това не е възможно, продължете напред с няколко примера, вместо да го предоставяте с цял корпус. Стандартният поток за проектиране на подкана за обучение трябва да изглежда така: Нулев изстрел → Няколко изстрела → Базирано на корпуса подготовка.

За проектиране на подканата за обучение за приложението Pandas Assistant използвах следната структура за подканата за обучение:

  • Описание: Първоначално описание на контекста за това какво трябва да прави асистентът на pandas и добавяне на ред или два за неговата функционалност.
  • Естествен език (английски): Този компонент включва минимално описание в един ред на задачата, която ще бъде изпълнена от асистента на pandas. Помага на GPT-3 да разбере контекста, за да генерира подходящ код на pandas в python.
  • Код на Pandas:Тозикомпонент включва кода на Pandas, съответстващ на описанието на английски, предоставено като вход към модела GPT-3.

Въвеждане → Естествен език ; Изход → Pandas Code

Нека видим пример в действие, за да разберем наистина силата на GPT-3 при генерирането на код на pandas от чист английски език. В примера по-долу ще генерираме кода на pandas, като предоставим минимални инструкции на асистента на AI pandas.

Препратки

  1. https://en.wikipedia.org/wiki/GPT-3
  2. https://openai.com/blog/openai-api
  3. https://pandas.pydata.org/docs

Ако искате да научите повече или искате да пиша повече по тази тема, не се колебайте да се свържете с нас.

Моите социални връзки: LinkedIn| Туитър | Github

Ако сте харесали тази публикация или я намирате за полезна, моля, отделете минута, за да натиснете бутона за пляскане, това увеличава видимостта на публикацията за други средни потребители.