您当前的位置:首页 > 行业图书 > 计算机与网络
数据整理实践指南  下载

数据整理实践指南
作 者: [美] 麦卡伦(Q. Ethan McCallum) 著;魏秀丽,李妹芳 译
出版时间: 2016
内容简介
  随着数据科学的热门,数据的优化、整理以及如何处理不良数据成为人们关注的重点。本书通过处理不良数据,进行数据清理的案例,向读者展示了处理数据的方法。本书共有19章,从6部分向读者展示了使用和清理不良数据背后的理论和实践。第1部分是Grubby的动手实践指南,它向读者介绍了驾驭、提取数据的方法,如何处理文本数据中的数据以及Web开发中碰到的数据问题。第2部分是让人充满意外的数据,它向读者介绍了数据也会“撒谎”。第3部分是方法,它向读者介绍了处理不良数据的一些方法。第4部分是数据存储和基础设施,它向读者介绍了如何存储数据。第5部分是数据的商业化,它向读者介绍了如何避免数据处理的一些误差。第6部分是数据策略,它向读者介绍了如何追踪数据、评估数据质量以及构建数据质量相关平台等。本书适合数据科学家、数据处理和整理相关开发人员阅读。也适合想要进入数据处理领域的读者阅读。
目录
第1章 从头说起:什么是噪音数据/t1
第2章 是我的问题还是数据的问题/t4
2.1 理解数据结构/t5
2.2 校验/t8
2.2.1 字段校验/t8
2.2.2 值校验/t9
2.2.3 简单统计的物理解释/t10
2.3 可视化/t11
2.3.1 关键词竞价排名示例/t13
2.3.2 搜索来源示例/t18
2.3.3 推荐分析/t19
2.3.4 时间序列数据/t22
2.4 小结/t27
第3章 数据是给人看的不是给机器看的/t28
3.1 数据/t28
3.1.1 问题:数据是给人看的/t29
3.1.2 对数据的安排/t29
3.1.3 数据分散在多个文件中/t32
3.2 解决方案:编写代码/t34
3.2.1 从糟糕的数据格式中读取数据/t34
3.2.2 从多个文件中读取数据/t36
3.3 附言/t42
3.4 其他格式/t43
3.5 小结/t45
第4章 纯文本中潜在的噪音数据/t46
4.1 使用哪种纯文本编码?/t46
4.2 猜测文本编码格式/t50
4.3 对文本规范化处理/t53
4.4 问题:在纯文本中掺入了特定应用字符/t55
4.5 通过Python处理文本/t59
4.6 实践练习题/t60
第5章 重组Web数据/t62
5.1 你能获得数据吗/t63
5.1.1 一般工作流程示例/t64
5.1.2 Robots 协议/t65
5.1.3 识别数据组织模式/t66
5.1.4 存储离线版本/t68
5.1.5 网页抓取信息/t69
5.2 真正的困难/t73
5.2.1 下载原始内容/t73
5.2.2 表单、对话框和新建窗口/t73
5.2.3 Flash/t74
5.3 不利情况的解决办法/t75
5.4 小结/t75
第6章 检测撒谎者以及相互矛盾网上评论的困惑/t76
6.1 Weotta公司/t76
6.2 获得评论/t77
6.3 情感分类/t77
6.4 极化语言/t78
6.5 创建语料库/t80
6.6 训练分类器/t81
6.7 分类器验证/t82
6.8 用数据设计/t84
6.9 经验教训/t84
6.10 小结/t85
6.11 信息资源/t86
第7章 请噪音数据站出来/t87
7.1 实例1:在制造业中减少缺陷/t87
7.2 实例2:谁打来的电话/t90
7.3 实例3:当“典型的”不等于“平均的”/t92
7.4 经验总结/t95
7.5 到工厂参观能成为试验的一部分吗/t96
第8章 血、汗和尿/t97
8.1 书呆子戏剧性工作交换/t97
8.2 化学家如何整理数字/t98
8.3 数据库都是我们的/t99
8.4 仔细检查/t102
8.5 生命短暂的漂亮代码库/t103
8.6 改变化学家(和其他电子表单滥用者)/t104
8.7 传递线(tl)和数据记录器(dr)/t105
第9章 当数据与现实不匹配/t107
9.1 到底是谁的报价机/t108
9.2 股票分割、股利和调整/t110
9.3 糟糕的现实/t112
9.4 小结/t114
第10章 偏差和误差的来源/t115
10.1 估算上的偏差:一般性的问题/t117
10.2 报告上的误差:一般性的问题/t118
10.3 其他偏差来源/t121
10.3.1 顶层编码/底部编码/t121
10.3.2 Seam偏差/t122
10.3.3 代理报告/t123
10.3.4 样本选择/t123
10.4 结论/t124
参考文献/t124
第11章 不要把完美和正确对立起来:噪音数据真是噪音吗/t128
11.1 回忆学校生活/t128
11.2 向着专业领域前进/t129
11.2.1 政府工作/t130
11.2.2 政府数据非常真实/t131
11.3 应用实例—服务电话/t132
11.4 继续前进/t133
11.5 经验与未来展望/t134
第12章 数据库攻击:什么时候使用文件/t135
12.1 历史/t135
12.2 建立我的工具箱/t136
12.3 数据存储—我的路障/t136
12.4 将文件作为数据存储器/t137
12.4.1 简单的文件/t138
12.4.2 文件处理一切/t138
12.4.3 文件可包含任何数据形式/t138
12.4.4 局部数据破坏/t139
12.4.5 文件拥有很棒的工具/t139
12.4.6 没有安装税/t139
12.5 文件的概念/t140
12.5.1 编码/t140
12.5.2 文本文件/t140
12.5.3 二进制数据/t140
12.5.4 内存映射文件/t140
12.5.5 文件格式/t140
12.5.6 分隔符/t142
12.6 文件支持的网络框架/t143
12.6.1 动机/t143
12.6.2 实现/t145
12.7 反馈/t145
第13章 卧库表,隐网络/t146
13.1 成本分配模型/t147
13.2 组合展开微妙的作用/t150
13.3 隐藏网络的浮现/t151
13.4 存储图表/t151
13.5 利用Gremlin遍历图表/t152
13.6 在网络属性里寻找价值/t154
13.7 从多重数据模型角度考虑并使用正确的工具/t155
13.8 致谢/t155
第14章 云计算神话/t156
14.1 关于云的介绍/t156
14.2 何谓“云”/t156
14.3 云和大数据/t157
14.4 Fred的故事/t157
14.4.1 起初一切都好/t157
14.4.2 基础结构全部放在云端/t158
14.4.3 随着规模增长,最初的扩展很轻松/t158
14.4.4 麻烦出现了/t158
14.4.5 需要提高性能/t158
14.4.6 关键要提高RAID 10性能/t158
14.4.7 重要的局部运行中断引发长期停机/t159
14.4.8 有代价的RAID 10/t159
14.4.9 数据规模增大/t160
14.4.10 地理冗余成为首选/t160
14.4.11 水平扩展并不像想像得那么简单/t160
14.4.12 成本显著增长/t160
14.5 Fred的荒唐事/t161
14.5.1 神话1:云是所有基础设施组件的解决方案/t161
该神话与Fred故事的联系/t161
14.5.2 神话2:云可以节约成本/t161
该神话与Fred的故事的联系/t162
14.5.3 神话3:通过RAID可以将cloud 10的性能提高至可接受的水平/t163
该神话与Fred故事的联系/t163
14.5.4 神话4:云计算使水平扩展轻松/t163
该神话与Fred故事的联系/t164
14.6 结论和推荐/t164
第15章 数据科学的阴暗面/t165
15.1 避开这些陷阱/t165
15.1.1 对数据一无所知/t166
15.1.2 应该只为数据科学家提供一种工具来解决所有问题/t167
15.1.3 应该为了分析而分析/t169
15.1.4 应该学会分享/t169
15.1.5 应该期望数据科学家无所不能/t170
15.2 数据学家在机构中的位置/t170
15.3 最后的想法/t171
第16章 如何雇佣机器学习专家/t172
16.1 确定问题/t172
16.2 模型测试/t173
16.3 创建训练集/t174
16.4 选择特征/t175
16.5 数据编码/t176
16.6 训练集、测试集和解决方案集/t176
16.7 问题描述/t177
16.8 回答问题/t178
16.9 整合解决方案/t178
16.10 小结/t179
第17章 数据的可追踪性/t180
17.1 原因/t180
17.2 个人经验/t181
17.2.1 快照/t181
17.2.2 保存数据源/t181
17.2.3 衡量数据源/t182
17.2.4 逆向恢复数据/t182
17.2.5 分阶段处理数据并保持各阶段的独立性/t182
17.2.6 识别根源/t183
17.2.7 寻找要完善的区域/t183
17.3 不变性:从函数程序设计借来的理念/t183
17.4 案例/t184
17.4.1 网络爬虫/t184
17.4.2 改变/t185
17.4.3 聚类/t185
17.4.4 普及度/t185
17.5 小结/t186
第18章 社交媒体:是可抹去的印记吗/t187
18.1 社交媒体:到底是谁的数据/t188
18.2 管控/t188
18.3 商业重组/t190
18.4 对沟通和表达的期望/t190
18.5 新的最终用户期望的技术含义/t192
18.6 这个行业是做什么的/t194
18.6.1 验证API/t195
18.6.2 更新通知API/t195
18.7 最终用户做什么/t195
18.8 我们怎样一起工作/t196
第19章 揭秘数据质量分析:了解什么时候数据足够优质/t197
19.1 框架介绍:数据质量分析的4个C/t198
19.1.1 完整性/t199
19.1.2 一致性/t201
19.1.3 准确性/t203
19.1.4 可解释性/t205
19.2 结论/t208



相关资料