TimG 最近的时间轴更新
TimG

TimG

V2EX 第 388009 号会员,加入于 2019-02-28 13:08:43 +08:00
今日活跃度排名 28364
求问数据清洗的简易方法
程序员  •  TimG  •  19 天前  •  最后回复来自 tikazyq
26
求问光盘冷数据备份的经验
问与答  •  TimG  •  131 天前  •  最后回复来自 Arnie97
20
请教一个带正则的 Sql 查询问题
PostgreSQL  •  TimG  •  314 天前  •  最后回复来自 Terry166
6
求助 SQL 的语法的小疑问
数据库  •  TimG  •  2022-08-24 16:45:52 PM  •  最后回复来自 c6h6benzene
4
如何把前后端分离的项目快速转成手机应用?
前端开发  •  TimG  •  2021-10-22 07:52:36 AM  •  最后回复来自 kensoz
28
感觉前端工程的开发环境好难移植
前端开发  •  TimG  •  2021-07-16 15:10:46 PM  •  最后回复来自 shilianmlxg
7
TimG 最近回复了
多嘴一句,这个需求有过度设计的味道。这种一般出现在 canvas 或者 svg 上生成个个性海报什么的,这些都有专门的库,比如 fabric js 。其他元素让用户去自定义......感觉像在哪个地方走偏了,谨慎实现。
18 天前
回复了 depress 创建的主题 Python 关于一个 Python 脚本的问题请教下大家
用管理员权限的命令提示符运行 python 脚本。经常用可以写在代码里,搜索引擎找下 python uac 关键字,抄一段代码试试。不过按说不会没权限吧,除非放在了 C 盘一些系统目录,如果真是这样最方便的方法还是把视频存在另一个不需要提权地方。
20 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@dbak 感谢推荐,简单了解了一下感觉这个比较接近理想流程了。不过我是 Windows ,这个程序好像没有提供 Windows 支持,害怕虚拟机会增加无谓的性能损耗,我还是研究下别的方案吧。
20 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@cccvno1 一开始确实是这么做的,但是当时没有给我一次交代所有需求,导致先写了 C#程序清洗,后期有新的列清洗需求,就图方便用 SQL 处理了,结果需求越加越多,SQL 也越来越多,成了这种人不人鬼不鬼的样子......这次痛定思痛,不再奢求一次全跑完,先把大表拆了再跑吧,并且尽量用一种方式去清洗,不然两者的优势都不沾哈哈
21 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@noqwerty 谢谢推荐,这个没听说过我会去了解一下。之前因为内存不够的问题也试过用 Vaex 替换 pandas ,结果好像不完整支持 apply ?折腾了好久最后无奈直接用 C#读数据库了。
21 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@wxf666 如您所说,只用 SQL 确实可以解决问题,但是难以迅速定位错误。这个项目的时间其实大部分会花费在打回数据重新收集这里,所以迅速的发现数据问题、修复可以修复的,一遇到无法修复的情况迅速反馈是非常重要的。因为数据五花八门,使用 SQL 的话,每次增加新的 case when 都要全部运行后才能知道清洗结果(而且一次还只能清洗一列)。如果编写程序以行去遍历,除了可以用多核加速和显示进度以外,还能:
1. 实时查看当前错误,数据第一次跑完,整个表的例外情况就可以掌握的差不多,简单的情况很多都已经改好程序了。而 SQL 的话,运行的时候人只能闲着,甚至连什么时候能跑完都不知道。
2. 记录修改前后数据,保存进日志或者存进数据库,如果出现意外可以 rollback 。
3. 对于复杂的逻辑可以 debug ,尽管只是 if else ,写多了也会混乱,也能美美地单元测试。对于这个量级的数据,在我的小电脑上跑是真的不想再来第二次。
21 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@512357301 感谢回复。我查到 clickhouse 不擅长更新数据,文档中也写明 update 是繁重操作。不过就原理上如果只查询+修改同一列,效率应该比行式数据库更高的。因为数据清洗势必牵扯到大量数据更新操作,不希望在这里产生意外。如果列式数据库在这方面不自信,我还是用回传统方法跟稳妥一些。
21 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@renmu 确实是这样,可以按照反馈数据的最小单元去拆分,导出成清洗完成和未完成两个文件夹,然后每次遍历未完成的文件夹,有新数据就替换掉未完成文件夹的旧数据。很有启发,谢谢。
21 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@lambdaq 只是觉得目前了解的程序不太适合处理这类问题,openrefine 也看了一下,好像也是针对列处理的,还得学习就不如继续用 SQL 了。这种需求想想也不算少,应该在我认知之外有合适的程序吧。不行就只能扩写那个 C#程序了......
喜欢玩游戏 ≠ 有兴趣学做游戏 +4

做游戏的人是要下功夫的,下的功夫就是让别人喜欢玩游戏。
人人都爱吃好菜,但未必人人都想当厨子。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1545 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 17:05 · PVG 01:05 · LAX 10:05 · JFK 13:05
Developed with CodeLauncher
♥ Do have faith in what you're doing.