处理数据

PDF版本

数据集是我们研究的唯一最有价值(和最昂贵的)输出。威廉希尔福彩一百万如果评估花费一百万美元,难道我们不应该将底层数据集也估价为100万美元吗?吗?
- - - - - -Bhavani Prathap Kasina,前副主任研究,威廉希尔福彩一百万William Hill彩票j - pal南亚,当前区域主任,亚洲和拉丁美洲,异丙醇。

它是至关重要的,以确保数据安全。数据必须随时备份和保护,适当的程序进行,以确保符合IRB和其他研究协议。威廉希尔福彩一百万确保了数据的安全性,遵循适当的数据清理和分析协议对于准确结果至关重要,为了确保透明,可复制的数据分析。本节中处理的数据管理的广泛类别是:

  1. 数据安全,备份,存储
  2. 数据清理
  3. 数据分析

数据安全,备份,存储

有许多问题需要回答时数据存储和安全:

  1. 我们应该在哪里存储,我们该如何后退,我们的数据吗?应该存储在云中吗?如果不是,为什么不?吗?
  2. 所有数据都需要密码保护吗?什么是好的密码?在团队成员之间传输密码的合适协议是什么?吗?
  3. 什么是个人身份的信息,还是需要加密的其他敏感数据?吗?
  4. 如果数据要存储在非安全位置,如何删除标识符呢?是否可以与未获得IRB批准的用于处理已识别数据的各方共享未识别数据?吗?
  5. 数据应该备份频率和位置备份应该多少?吗?
  6. 我们如何传输数据,在内部和外部?什么是“安全通道”用于传输数据?吗?

对于构成敏感信息的一个分类,查阅哈佛数据分类表.

William Hill彩票j - pal推荐使用维拉克里普,一个TrueCrypt的更新版本,读取并创建用于存储敏感数据的加密存储卷。然而,最近对VeraCrypt的审计发现Windows XP存在问题,这是外部VeraCrypt范围的地址。任何仍在运行Windows XP强烈鼓励他们的电脑升级到Windows 7或10。

作为社区的资源,我们已经修改了truecrypt Stata命令以使用VeraCrypt。可以找到更新的包在这里.请注意,这个包是在β形式如果你遇到任何问题,请提交一个问题在这里.一旦定稿,我们将通过占据SSC归档包可用。我们也发展了。一个导游安装和使用VeraCrypt软件。

BoxCryptor另一个选择是广泛用于加密的数据存储在云(使用箱等服务,Dropbox,Google Drive,等)

驱动器加密是对Windows操作系统上存储的所有数据进行加密的服务。

数据清理

甚至最好的数据设计调查通常需要一些准备和清洁工作前准备好分析。的一些问题,我们需要解决与传入的数据包括:

  • 数据应如何命名,重新编码,和标签?吗?
  • 有标准的最佳实践之前准备数据分析?什么标准检查应该运行在独特的标识符和变量值?吗?
  • 我们如何处理数据中的冲突?吗?
  • 我们应该如何处理丢失的数据?吗?
  • 什么是最好的方法来检查逻辑一致性数据与调查的答案,来验证答案选项?吗?

数据分析

在对我们项目的数据进行分析时,我们经常感兴趣的两个变量之间的关系。为例,我们可以使用分析:测试理论,理解变量之间的关系,预测结果,并运行仿真。影响分析的范围可以从- - - - - -如测试是否有统计上的显著差异在治疗和结果为个人。对照组- - - - - -来越复杂- - - - - -例如,使用数据查看异构影响,估计参数的结构模型,等。

  • 背后的一个广泛的概述理论因果推论在随机评估,参考随机化工具包.
  • 掌握度量,一本教科书,旨在大学生由约书亚·安格瑞斯特和Jorn-Steffen Pischke,对各种研究设计中绘制因果推理背后的计量经济学有很好的指导,包括随机评估。
  • 科林·卡梅隆和Praveen Trivedi全面的指导使用软件进行microeconometric分析占据。
  • 查克·胡贝尔和大卫Drukker有一系列帖子在占据博客上使用命令程序的治疗效果,””teffect”。”
  • 克里斯托弗·鲍姆幻灯片(2013)使用数据管理和可再生的研究占据包含许多有价值的技巧和工具。威廉希尔福彩一百万
  • 为进一步的技术资源在使用软件来管理和分析数据,参考软件工具部分。

请注意,实际研究资源引用的是策划为特定的研究和培训需求,仅供参威廉希尔福彩一百万考。威廉希尔赛狗请电子邮件我们为更多的信息。