pandas groupby与sum（）在大型csv文件上？

首先，你可以通过读取CSV选与众不同的常量列表usecols - usecols=['id', 'col1']。然后按块读取csv，按id和groupby的子集读取concat块。

如果更好用列col1，就换constants = df['col1'].unique().tolist()。这取决于您的数据。

或者，您只能读取一列df = pd.read_csv(io.StringIO(temp), sep=",",usecols=['id'])，这取决于您的数据。

import pandas as pd
import numpy as np
import io

#test data
temp=u"""id,col1,col2,col3
1,13,15,14
1,13,15,14
1,12,15,13
2,18,15,13
2,18,15,13
2,18,15,13
2,18,15,13
2,18,15,13
2,18,15,13
3,14,15,13
3,14,15,13
3,14,185,213"""
df = pd.read_csv(io.StringIO(temp), sep=",", usecols=['id', 'col1'])
#drop duplicities, from out you can choose constant
df = df.drop_duplicates()
print df
#   id  col1
#0   1    13
#2   1    12
#3   2    18
#9   3    14

#for example list of constants
constants = [1,2,3]
#or column id to list of unique values
constants = df['id'].unique().tolist()
print constants
#[1L, 2L, 3L]

for i in constants:
    iter_csv = pd.read_csv(io.StringIO(temp), delimiter=",", chunksize=10)
    #concat subset with rows id == constant
    df = pd.concat([chunk[chunk['id'] == i] for chunk in iter_csv])
    #your groupby function
    data = df.reset_index(drop=True).groupby(["id","col1"], as_index=False).sum()
    print data.to_csv(index=False)

    #id,col1,col2,col3
    #1,12,15,13
    #1,13,30,28
    #
    #id,col1,col2,col3
    #2,18,90,78
    #
    #id,col1,col2,col3
    #3,14,215,239

其他 2022/1/1 18:45:37 有483人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

Jenkins XmlParser报告未找到根节点属性的此类字段

Jenkins XmlParser报告未找到根节点属性的此类字段

其他 2022-01-01 954
Java Import package.* vs import package.SpecificType

Java Import package.* vs import package.SpecificType

java 2022-01-01 1138
使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

其他 2022-01-01 1245
pandas.io.json.json_normalize与非常嵌套的json

pandas.io.json.json_normalize与非常嵌套的json

其他 2022-01-01 967
获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

java 2022-01-01 984
Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

java 2022-01-01 961
Hibernate工具可以生成JPA POJO吗？

Hibernate工具可以生成JPA POJO吗？

其他 2022-01-01 1085
怎么把PascalCase转换成pascal_case？

怎么把PascalCase转换成pascal_case？

其他 2022-01-01 843
如何在Electron.Atom \ WebPack应用程序中使用FS模块？

如何在Electron.Atom \ WebPack应用程序中使用FS模块？

其他 2022-01-01 985
在本地xampp / apache服务器上设置SSL

在本地xampp / apache服务器上设置SSL

其他 2022-01-01 1078
在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

其他 2022-01-01 1044
Webpack开发服务器React Content Security Policy错误

Webpack开发服务器React Content Security Policy错误

其他 2022-01-01 804
Spring Data JPA分离实体

Spring Data JPA分离实体

Java 2022-01-01 862
“ -sh：executable_path：未找到”是什么意思

“ -sh：executable_path：未找到”是什么意思

其他 2022-01-01 917
Primefaces DataTable + JPA /休眠分页

Primefaces DataTable + JPA /休眠分页

其他 2022-01-01 885
在具有Docker容器的独立集群上执行Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

在具有Docker容器的独立集群上执行Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

其他 2022-01-01 988
Spring，JPA和Hibernate-如何在没有并发问题的情况下增加计数器

Spring，JPA和Hibernate-如何在没有并发问题的情况下增加计数器

Java 2022-01-01 967
JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

MySQL 2022-01-01 855
apache mysql-3306上的“数据包出现故障”

apache mysql-3306上的“数据包出现故障”

MySQL 2022-01-01 784
Hibernate JPA，MySQL和TinyInt（1）用于布尔值而不是bit或char

Hibernate JPA，MySQL和TinyInt（1）用于布尔值而不是bit或char

MySQL 2022-01-01 1035

pandas groupby与sum（）在大型csv文件上？

撰写回答

推荐问题

Jenkins XmlParser报告未找到根节点属性的此类字段

Java Import package.* vs import package.SpecificType

使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

pandas.io.json.json_normalize与非常嵌套的json

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

Hibernate工具可以生成JPA POJO吗？

怎么把PascalCase转换成pascal_case？

如何在Electron.Atom \ WebPack应用程序中使用FS模块？

在本地xampp / apache服务器上设置SSL

在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

Webpack开发服务器React Content Security Policy错误

Spring Data JPA分离实体

“ -sh：executable_path：未找到”是什么意思

Primefaces DataTable + JPA /休眠分页

在具有Docker容器的独立集群上执行Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

Spring，JPA和Hibernate-如何在没有并发问题的情况下增加计数器

JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

apache mysql-3306上的“数据包出现故障”

Hibernate JPA，MySQL和TinyInt（1）用于布尔值而不是bit或char

分类汇总

您的鼓励是对我最大的支持