服务热线

0723-77280313
网站导航
主营产品:
技术文章
当前位置:主页 > 技术文章 >

4个Python数据读取的常见错误

时间:2021-02-10 00:09 点击次数:
 本文摘要:read_csv()是python数据统计分析包在pandas里边用于加倍较高的涵数之一。它还包含的参数类似20个,有可能一开始不一定务必初始告知每一个参数具有。 但是,伴随着用于的掌握,具体数据信息自然环境愈发简易,应急处置的数据信息上亿行后,就不容易经常会出现那样那般的难题,那样劝导大家反过度来再作去讲解一些参数的具有。今日,汇总平常用于read_csv(),经常遇到的好多个难题。

亚博高效快速

read_csv()是python数据统计分析包在pandas里边用于加倍较高的涵数之一。它还包含的参数类似20个,有可能一开始不一定务必初始告知每一个参数具有。

但是,伴随着用于的掌握,具体数据信息自然环境愈发简易,应急处置的数据信息上亿行后,就不容易经常会出现那样那般的难题,那样劝导大家反过度来再作去讲解一些参数的具有。今日,汇总平常用于read_csv(),经常遇到的好多个难题。

1、UnicodeDecodeErrorread_csv环境变量读取文件的编码格式为:utf-8,假如读取文件没法被utf-8编号,就不容易报上边的错误。但是大家如何告知读取文件的编码格式呢?今日,为大伙儿解读一个这些方面的包到:chardet,它能返回文档的编码格式。用于前再作用pipinstallchardet,改装一下。接手上那样编写返回编码格式,file为载入的文件目录。

亚博高效快速

#出示文档编号种类defget_encoding(file):#二进制方法载入,出示字节数数据信息,检验种类withopen(file,'rb')asf:returnchardet.detect(f.read())['encoding']根据charadet包在剖析出有文档的编码格式后,无论用于python原生态的open,read,還是pandas的read_csv,都能够始于给参数encoding.2、sep分隔符罕见文档的分隔符,例如,,csv文件环境变量为分号,但是常见的大数据库,例如hive,有时候不容易用于分隔符为,此刻就务必调节参数sep.这类错误比较好解决困难。3、载入文档时遇到和行数不相匹配的行,这时不容易出错特别是在在读取文件为上亿行的,慢读落伍,突然另附这一拢,此番分析出带的字段名数量与以前队伍数不给出。

这时,务必调节一个参数:error_bad_lines为false,意思是忽略此番。pandas.read_csv(***,error_bad_lines=False)具体新项目,载入的文档数据信息自然环境比大家预估的简易。假定大家的数据库文件环境变量分隔符为分号,随后假如某行的某一单元格给列入:'山东,潍坊市,青州市'就光这一个单元格,就不容易分析出有两列,出错那也是自然界的,这就回绝我们在载入以前对数据信息做好充份的消除。4、EOFinsidestringstartingatline错误这一错误在读取文件时,经常也不会经常会出现。

这类错误务必修改quoting参数。df=pd.read_csv(csvfile,quoting=csv.QUOTE_NONE)环境变量给列入0,遇到错误时,能够依据文本文档调节。quoting:intorcsv.QUOTE_*instance,default0Controlfieldquotingbehaviorpercsv.QUOTE_*constants.UseoneofQUOTE_MINIMAL(0),QUOTE_ALL(1),QUOTE_NONNUMERIC(2)orQUOTE_NONE(3).更为是多少见载入错误,亲睐大伙儿facebook。


本文关键词:4个,Python,数据,读,取的,常见,错误,read,csv,是,亚博高效快速

本文来源:亚博取款-www.sgpwp.com

Copyright © 2007-2021 www.sgpwp.com. 亚博取款科技 版权所有  备案号:ICP备89134319号-5

地址:河南省濮阳市紫阳县蒂事大楼67号 电话:0723-77280313 邮箱:admin@sgpwp.com

关注我们

服务热线

0723-77280313

扫一扫,关注我们