Skip to main content

未提供项目描述

项目描述

构建状态 编解码器

Pandas AWS - 让数据科学家轻松使用 AWS

Pandas AWS 使得将 pandas.DataFrame 与 AWS 服务一起使用变得非常容易。

使用 S3

首先创建一个S3客户端供以后使用并定义一个bucket

from pandas_aws import get_client

s3 = get_client('s3')
MY_BUCKET= 'pandas-aws-bucket'

示例 1:从存储在 S3 中的 parquet 文件中获取 DataFrame

from pandas_aws.s3 import get_df

df_from_parquet_file = get_df(s3, MY_BUCKET, 'my_parquet_file_path', format='parquet')

示例 2:从存储在 S3 中的多个 CSV 文件(具有相同架构)中获取 DataFrame

from pandas_aws.s3 import get_df_from_keys

df_from_list = get_df_from_keys(s3, MY_BUCKET, prefix='my-folder', suffix='.csv')

示例 3:使用 xlsx (Excel) 文件格式将 DataFrame 放入 S3

from pandas_aws.s3 import put_df

put_df(s3, my_dataframe, MY_BUCKET, 'target_file_path', format='xlsx')

示例 4:使用多部分上传将 DataFrame 放入 S3

from pandas_aws.s3 import put_df

put_df(s3, my_dataframe, MY_BUCKET, 'target_file_path', format='csv', compression='gzip', parts=8)

安装 pandas-aws

点安装

可以使用 pip 下载包

pip install pandas-aws

为 pandas-aws 做贡献

git克隆

我们使用develop品牌作为发布分支,因此git clone使用存储库,git checkout develop以便获得最新的开发版本。

git clone git@github.com:FlorentPajot/pandas-aws.git

准备环境

Pandas AWS 用于poetry管理依赖项。因此,poetry需要:

curl -SSL https://raw.githubusercontent.com/python-poetry/poetry/master/get-poetry.py | python

创建一个单独的 Python 环境,例如使用pyenvPython pyenv-virtualenv3.7.7:

pyenv install 3.7.7
pyenv virtualenv 3.7.7 pandas-aws
pyenv activate pandas-aws

使用以下命令检查您的环境:

which python
// should show something like .pyenv/shims/python
python -V
// should show python 3.7.7 (or any other version you selected)
pip list
// should show barely nothing except pip and setuptools

如果您遇到问题,请查看Pyenv文档。

然后git clone从项目存储库中安装带有诗歌的依赖项:

poetry install

指导方针

去做

需要

该项目需要以下依赖项:

  • libpq-dev(psycopg2 依赖项)

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

pandas-aws-0.1.6.tar.gz (6.6 kB 查看哈希

已上传 source

内置分布

pandas_aws-0.1.6-py3-none-any.whl (8.6 kB 查看哈希

已上传 py3