数据整理自动化

tags
Design
Tool
date
数据分析可以辅助设计决策

S 情境

是什么、遇到了什么问题
从数据到可视化图表,经历了 3 个过程
notion image
本文结合公司内部的数据工具,着重围绕「数据整理」环节描述现存问题和优化方案。
这是获取到的原始数据,它距离分析并产出可视化图表、分析结论还需要经过「数据整理」环节。
notion image
数据整理包括
  • 根据数据 ID 匹配事件信息,包括事件名称/对应位置
  • 日期数据格式化

根据数据 ID 匹配事件信息

原始数据只有数据 ID,无法明确 ID 对应产品的哪一个界面/流程,所以需要将 ID 与事件信息进行关联。
notion image
在原有方案中,需要单独保存一份 ID 索引表格,通过函数进行匹配,每次需要手动操作,比较繁琐。
notion image

日期数据格式化

原始数据中的日期,看起来是日期,但格式其实是「数字」,「数字」与「日期」在 Excel 中是不同的数据类型,如果使用「数据」类型生成可视化图表,将导致显示问题,影响分析。
notion image

T 任务

在此情境下我要解决的问题、要达到的目标是什么
上述两个问题需要人工处理,且出现次数频繁,影响工作效率。可以结合 Python 自动化完成。

A 行动

我采取了哪些行动、制定了什么方案,为什么采取这些行动。如何开展这些行动,遇到哪些问题,我是如何解决的。
ID 匹配事件信息方面,抓取了事件信息数据保持到本地表格中,定期更新,避免每次使用时都需要获取数据影响处理效率。
日期格式化方面,通过 Python 的 openpyxl 模块读写表格完成格式化。

R 结果

行动的结果如何,是否完成任务。从中学习到了什么有哪些收获。
自动化匹配 ID 对应的事件信息、自动化对日期进行格式化,节省了人工处理的时间,提高了数据分析的效率,降低了分析门槛。

案例

分析快速发言的使用情况
首先从后台导出数据
notion image
默认的表格数据只有事件 ID,无法了解具体的事件信息,日期也没有被格式化
notion image
运行脚本,自动整理数据
notion image
处理后的表格新增了「分类」、「具体位置」、「事件名称」信息,帮助了解数据含义、进行后续操作
notion image

更多可能性

前面只介绍了「数据整理」部分,其实整个分析流程中还有很多可以通过自动化提高效率。例如通过 pandas 实现自动可视化,快速预览数据概要。
接下来将学习 pandas 库,进一步提高数据分析的效率和质量,让数据更好的为设计服务。

总结

通过 Python 可以替代人工做数据整理,提高数据分析效率;未来计划学习 pandas 进一步提高效率和质量。
notion image
演讲自查清单
🗒️ 全局信息
  • 观众是谁:同事,有一定数据分析的了解
  • 演讲目的:宣传提高数据分析的方法,可以和有兴趣的同事做进一步的沟通
  • 预计时长:5min
🖼️ 直观
三段式框架
舍弃与主题关联不大的内容
将生僻且非核心的概念舍弃或更换名词
让内容变成故事
幽默、有趣
引入典型例子,可以用现场观众举例,调动注意力,加强互动
加入图片、视频、演示(演示注意准备充分)
内容是否存在不严谨的问题(特别是数据分析相关的)
加入小结、总结
↔️ 互动
观众可能有哪些疑问
能达到什么效果
如何使用
向观众提哪些问题
 

© jiangzilong 2024