数据整理实践指南 作 者: [美] 麦卡伦(Q. Ethan McCallum) 著;魏秀丽,李妹芳 译 出版时间: 2016 内容简介 随着数据科学的热门,数据的优化、整理以及如何处理不良数据成为人们关注的重点。本书通过处理不良数据,进行数据清理的案例,向读者展示了处理数据的方法。本书共有19章,从6部分向读者展示了使用和清理不良数据背后的理论和实践。第1部分是Grubby的动手实践指南,它向读者介绍了驾驭、提取数据的方法,如何处理文本数据中的数据以及Web开发中碰到的数据问题。第2部分是让人充满意外的数据,它向读者介绍了数据也会“撒谎”。第3部分是方法,它向读者介绍了处理不良数据的一些方法。第4部分是数据存储和基础设施,它向读者介绍了如何存储数据。第5部分是数据的商业化,它向读者介绍了如何避免数据处理的一些误差。第6部分是数据策略,它向读者介绍了如何追踪数据、评估数据质量以及构建数据质量相关平台等。本书适合数据科学家、数据处理和整理相关开发人员阅读。也适合想要进入数据处理领域的读者阅读。 目录 第1章 从头说起:什么是噪音数据/t1 第2章 是我的问题还是数据的问题/t4 2.1 理解数据结构/t5 2.2 校验/t8 2.2.1 字段校验/t8 2.2.2 值校验/t9 2.2.3 简单统计的物理解释/t10 2.3 可视化/t11 2.3.1 关键词竞价排名示例/t13 2.3.2 搜索来源示例/t18 2.3.3 推荐分析/t19 2.3.4 时间序列数据/t22 2.4 小结/t27 第3章 数据是给人看的不是给机器看的/t28 3.1 数据/t28 3.1.1 问题:数据是给人看的/t29 3.1.2 对数据的安排/t29 3.1.3 数据分散在多个文件中/t32 3.2 解决方案:编写代码/t34 3.2.1 从糟糕的数据格式中读取数据/t34 3.2.2 从多个文件中读取数据/t36 3.3 附言/t42 3.4 其他格式/t43 3.5 小结/t45 第4章 纯文本中潜在的噪音数据/t46 4.1 使用哪种纯文本编码?/t46 4.2 猜测文本编码格式/t50 4.3 对文本规范化处理/t53 4.4 问题:在纯文本中掺入了特定应用字符/t55 4.5 通过Python处理文本/t59 4.6 实践练习题/t60 第5章 重组Web数据/t62 5.1 你能获得数据吗/t63 5.1.1 一般工作流程示例/t64 5.1.2 Robots 协议/t65 5.1.3 识别数据组织模式/t66 5.1.4 存储离线版本/t68 5.1.5 网页抓取信息/t69 5.2 真正的困难/t73 5.2.1 下载原始内容/t73 5.2.2 表单、对话框和新建窗口/t73 5.2.3 Flash/t74 5.3 不利情况的解决办法/t75 5.4 小结/t75 第6章 检测撒谎者以及相互矛盾网上评论的困惑/t76 6.1 Weotta公司/t76 6.2 获得评论/t77 6.3 情感分类/t77 6.4 极化语言/t78 6.5 创建语料库/t80 6.6 训练分类器/t81 6.7 分类器验证/t82 6.8 用数据设计/t84 6.9 经验教训/t84 6.10 小结/t85 6.11 信息资源/t86 第7章 请噪音数据站出来/t87 7.1 实例1:在制造业中减少缺陷/t87 7.2 实例2:谁打来的电话/t90 7.3 实例3:当“典型的”不等于“平均的”/t92 7.4 经验总结/t95 7.5 到工厂参观能成为试验的一部分吗/t96 第8章 血、汗和尿/t97 8.1 书呆子戏剧性工作交换/t97 8.2 化学家如何整理数字/t98 8.3 数据库都是我们的/t99 8.4 仔细检查/t102 8.5 生命短暂的漂亮代码库/t103 8.6 改变化学家(和其他电子表单滥用者)/t104 8.7 传递线(tl)和数据记录器(dr)/t105 第9章 当数据与现实不匹配/t107 9.1 到底是谁的报价机/t108 9.2 股票分割、股利和调整/t110 9.3 糟糕的现实/t112 9.4 小结/t114 第10章 偏差和误差的来源/t115 10.1 估算上的偏差:一般性的问题/t117 10.2 报告上的误差:一般性的问题/t118 10.3 其他偏差来源/t121 10.3.1 顶层编码/底部编码/t121 10.3.2 Seam偏差/t122 10.3.3 代理报告/t123 10.3.4 样本选择/t123 10.4 结论/t124 参考文献/t124 第11章 不要把完美和正确对立起来:噪音数据真是噪音吗/t128 11.1 回忆学校生活/t128 11.2 向着专业领域前进/t129 11.2.1 政府工作/t130 11.2.2 政府数据非常真实/t131 11.3 应用实例—服务电话/t132 11.4 继续前进/t133 11.5 经验与未来展望/t134 第12章 数据库攻击:什么时候使用文件/t135 12.1 历史/t135 12.2 建立我的工具箱/t136 12.3 数据存储—我的路障/t136 12.4 将文件作为数据存储器/t137 12.4.1 简单的文件/t138 12.4.2 文件处理一切/t138 12.4.3 文件可包含任何数据形式/t138 12.4.4 局部数据破坏/t139 12.4.5 文件拥有很棒的工具/t139 12.4.6 没有安装税/t139 12.5 文件的概念/t140 12.5.1 编码/t140 12.5.2 文本文件/t140 12.5.3 二进制数据/t140 12.5.4 内存映射文件/t140 12.5.5 文件格式/t140 12.5.6 分隔符/t142 12.6 文件支持的网络框架/t143 12.6.1 动机/t143 12.6.2 实现/t145 12.7 反馈/t145 第13章 卧库表,隐网络/t146 13.1 成本分配模型/t147 13.2 组合展开微妙的作用/t150 13.3 隐藏网络的浮现/t151 13.4 存储图表/t151 13.5 利用Gremlin遍历图表/t152 13.6 在网络属性里寻找价值/t154 13.7 从多重数据模型角度考虑并使用正确的工具/t155 13.8 致谢/t155 第14章 云计算神话/t156 14.1 关于云的介绍/t156 14.2 何谓“云”/t156 14.3 云和大数据/t157 14.4 Fred的故事/t157 14.4.1 起初一切都好/t157 14.4.2 基础结构全部放在云端/t158 14.4.3 随着规模增长,最初的扩展很轻松/t158 14.4.4 麻烦出现了/t158 14.4.5 需要提高性能/t158 14.4.6 关键要提高RAID 10性能/t158 14.4.7 重要的局部运行中断引发长期停机/t159 14.4.8 有代价的RAID 10/t159 14.4.9 数据规模增大/t160 14.4.10 地理冗余成为首选/t160 14.4.11 水平扩展并不像想像得那么简单/t160 14.4.12 成本显著增长/t160 14.5 Fred的荒唐事/t161 14.5.1 神话1:云是所有基础设施组件的解决方案/t161 该神话与Fred故事的联系/t161 14.5.2 神话2:云可以节约成本/t161 该神话与Fred的故事的联系/t162 14.5.3 神话3:通过RAID可以将cloud 10的性能提高至可接受的水平/t163 该神话与Fred故事的联系/t163 14.5.4 神话4:云计算使水平扩展轻松/t163 该神话与Fred故事的联系/t164 14.6 结论和推荐/t164 第15章 数据科学的阴暗面/t165 15.1 避开这些陷阱/t165 15.1.1 对数据一无所知/t166 15.1.2 应该只为数据科学家提供一种工具来解决所有问题/t167 15.1.3 应该为了分析而分析/t169 15.1.4 应该学会分享/t169 15.1.5 应该期望数据科学家无所不能/t170 15.2 数据学家在机构中的位置/t170 15.3 最后的想法/t171 第16章 如何雇佣机器学习专家/t172 16.1 确定问题/t172 16.2 模型测试/t173 16.3 创建训练集/t174 16.4 选择特征/t175 16.5 数据编码/t176 16.6 训练集、测试集和解决方案集/t176 16.7 问题描述/t177 16.8 回答问题/t178 16.9 整合解决方案/t178 16.10 小结/t179 第17章 数据的可追踪性/t180 17.1 原因/t180 17.2 个人经验/t181 17.2.1 快照/t181 17.2.2 保存数据源/t181 17.2.3 衡量数据源/t182 17.2.4 逆向恢复数据/t182 17.2.5 分阶段处理数据并保持各阶段的独立性/t182 17.2.6 识别根源/t183 17.2.7 寻找要完善的区域/t183 17.3 不变性:从函数程序设计借来的理念/t183 17.4 案例/t184 17.4.1 网络爬虫/t184 17.4.2 改变/t185 17.4.3 聚类/t185 17.4.4 普及度/t185 17.5 小结/t186 第18章 社交媒体:是可抹去的印记吗/t187 18.1 社交媒体:到底是谁的数据/t188 18.2 管控/t188 18.3 商业重组/t190 18.4 对沟通和表达的期望/t190 18.5 新的最终用户期望的技术含义/t192 18.6 这个行业是做什么的/t194 18.6.1 验证API/t195 18.6.2 更新通知API/t195 18.7 最终用户做什么/t195 18.8 我们怎样一起工作/t196 第19章 揭秘数据质量分析:了解什么时候数据足够优质/t197 19.1 框架介绍:数据质量分析的4个C/t198 19.1.1 完整性/t199 19.1.2 一致性/t201 19.1.3 准确性/t203 19.1.4 可解释性/t205 19.2 结论/t208
|