修改完 yaml 文件之后,我们只需在生成报告时通过 config_file 参数指定配置文件所在的路径即可,就像这样:
_report(config_file?=?\"你的文件路径.yml\")
通过将配置文件与核心代码相分离,以提高我们代码的简洁性与可读性。
pandas-profiling 库为我们提供了一种方便、快捷的数据探索方式,提供了比基本统计信息更为丰富的一些信息(如缺失值相关图、相关关系图等),能够为我们前期的数据探索工作节省出大量的时间。
不过由于 pandas-profiling 生成的报告维度相对来说比较固定和模板化,所以对于想让报告更加丰富的朋友来说你可能需要自己再去做一些额外的工作了;同时,需要注意的是,pandas-profiling 比较适合在中小数据集中使用。随着数据量的增加,报告渲染的速度会大幅度变慢且生成报告会耗时更多。
如果你仍有对大数据集进行 EDA 的需要,那么像官方文档说的那样你最好是通过抽样或者采样的方式来在不影响数据分布的情况下减少样本量。官方也有表示会在以后的版本中使用 modin、spark 和 dask 等高性能的库或框架作为可扩展的后端,到那时也许生成大数据集的 EDA 报告时可能就不是问题了。
作者:100gle,练习时长不到两年的非正经文科生一枚,喜欢敲代码、写写文章、捣鼓捣鼓各种新事物;现从事有关大数据分析与挖掘的相关工作。
文章来源:《探索科学》 网址: http://www.tskxzzs.cn/zonghexinwen/2020/0817/609.html