категории | RSS

Новая библиотека для анализа данных Pandas AI: стоит ли пробовать?

Появилась новая библиотека Pandas AI - надстройка над популярной библиотекой для анализа данных Pandas.

Для тех, кто не знает, Pandas - программная библиотека, написанная для языка программирования Python для обработки и анализа данных. В частности, Pandas предлагает структуры данных и операции для работы с числовыми таблицами и временными рядами. Сама Pandas бесплатна для использования.

Как уверяют разработчики, Pandas AI в свою очередь расширяет возможности Pandas за счет искусственного интеллекта.

Ниже краткое обзор.

Принцип работы Pandas AI

В редакторе кода задаете любой вопрос про данные на естественном языке и без написания кода получаете готовый ответ по вашим данным.

Какие вопросы можно задать? Любые вопросы, связанные с подготовкой, очисткой данных, визуализацией, исследовательским анализом данных, машинным обучением и т.д.

Простой пример, если спросить про данные о зарплате: "Кто в компании зарабатывает больше?". Pandas AI ответит: "Оливия зарабатывает больше".import pandas as pd from pandasai import PandasAI employees_data = { 'EmployeeID': [1, 2, 3, 4, 5], 'Name': ['John', 'Emma', 'Liam', 'Olivia', 'William'], 'Department': ['HR', 'Sales', 'IT', 'Marketing', 'Finance'] } salaries_data = { 'EmployeeID': [1, 2, 3, 4, 5], 'Salary': [5000, 6000, 4500, 7000, 5500] } employees_df = pd.DataFrame(employees_data) salaries_df = pd.DataFrame(salaries_data) llm = OpenAI() pandas_ai = PandasAI(llm) pandas_ai([employees_df, salaries_df], "Who gets paid the most?")

Приведенный выше код вернет следующее:Oh, Olivia gets paid the most.

А вот пример с визуализацией. Просим построить гистограмму стран, показывающую ВВП для каждой страны, используя разные цвета для каждого столбца.pandas_ai( df, "Plot the histogram of countries showing for each the gdp, using different colors for each bar", )

Получаем:

Если примеров мало, то вот еще один Пример использования библиотеки Pandas AI в Google Colab.

Как установить?

Как и любую другую библиотеку, инструкции есть на github. Отличие в том, что вам понадобится ключ API OpenAI. API платное, но есть бесплатный период на 1 месяц без привязки карты.

Если возникает вопрос по поводу безопасности данных - в случае подключения API Open AI клянется не использовать ваши данные для обучения.

Когда я услышала про Pandas AI, идея подобной библиотеки меня заинтересовала. Однако после изучения различных статей, я пришла к выводу, что пока не буду ее использовать.

Почему я не спешу устанавливать Pandas AI?

Сами разработчики предупреждают, что весь фрейм данных каждый раз передается вместе с вопросом, поэтому решение не идеально для обработки больших наборов данных. Кроме того, что скорее всего все будет тормозить, придется платить больше за API OpenAI.

Pandas AI дает готовый ответ без кода и пояснений. Сомнительно, правда? Такому ответу я не смогу доверять, ведь я даже не смогу проверить код. Мне кажется, разработчики не разобрались, кто является их целевой аудиторией.

Можно спросить у ChatGPT почти тоже самое. Да, будут сложности с загрузкой данных в ChatGPT (хотя по-моему уже есть какое-то решение и это проблемы), плюс сама загрузка в ChatGPT не безопасна, но никто не отменяет просто попросить написать код для какого-то конкретного случая. Кроме того есть много расширений для того же VSC, которые практически пишут код за тебя.

API OpenAI платное. И дело даже не в том, что нужно платить, а в том, что я с узбекской карты не могу его оплатить.

В последнее время выпускается много надстроек с использованием OpenAI, уже не успеваю следить, но почти как всегда сыро и надо дорабатывать.

Если вы пробовали - поделитесь, как вам?

Мой телеграм канал по аналитике Аналитика и growth mind-set.



Источник новости: habr.com

DimonVideo
2023-06-14T12:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика