基于卡方检验的大数据抽样工具 Big Data Sampling Under Chi-square

GPL
Python
跨平台
2021-09-13
osc_17199905

基于卡方检验的大数据抽样工具

介绍

抽样是数据科学中的基本方法之一。它可以降低数据规模并简化计算。本工具包给出一种保持分布不变性的抽样工具,使得即使在小样本数据量下也不会影响这些数据分析模型的准确性。本工具包基于皮尔逊检验的保持分布不变的启发式抽样压缩算法。该算法基于两个评分函数进行抽样,其中一个评分函数基于皮尔逊检验,另一个评分函数基于似然函数。

使用方法

大数据抽样压缩工具含两个版本:Matlab版和Python版。

两个版本的功能一致,但Matlab版的运行速度比Python版快。

Matlab版依赖于Matlab v9.7(2019b)运行时环境。若已经安装了Matlab 2019b,则可以在Matlab命令行窗口输入mrcinstaller直接安装。另外,可以从[网址](https://www.mathworks.com/products/compiler/mcr/index.html)中下载Matlab2019b对应的运行环境。

Python版直接运行源码网址下的文件

hsa_python_with_ui/hsa_python_with_ui/hsa_python_with_ui.py

 Matlab版直接运行源码网址下的文件

hsa_matlab_with_ui/hsa_matlab_with_ui/hsa_matlab_with_ui.py

更详细的内容请参考项目中的用户说明书。

界面

Python版本的主界面如下

Matlab版本的主界面如下

参考文献

[1] Yang J, Wang J, Cheng W, et al. Sampling to Maintain Approximate Probability Distribution Under Chi-Square Test[C]//National Conference of Theoretical Computer Science. Springer, Singapore, 2019: 29-45.

[2] Yang J Y, Wang J D, Zhang Y F, et al. A Heuristic Sampling Method for Maintaining the Probability Distribution[J]. Journal of Computer Science and Technology, 2021, 36(4): 896-909.

加载中

暂无资讯

暂无问答

Chi-Square Statistic/Distribution

、 1、What is a Chi Square Test? 卡方检验有两种类型。两者使用卡方统计量和分布的目的不同。 第一种:卡方拟合优度检验确定样本数据是否与总体匹配。(这里不介绍) 第二种:独立性的卡方检...

2019/01/01 15:57
30
0
what is big data?

link: http://opensource.com/resources/big-data Big data: everyone seems to be talking about it, but what is big data really? How is it changing the way researchers at companies,...

2016/06/13 13:26
46
0
Big Data

Blog1(http://blog.sina.com.cn/s/blog_631d3a630101nb77.html) 大数据(Big Data) 大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存...

2014/10/12 19:10
324
0
Big data in a nutshell

Data is growing rapidly in every sector. Big data, cloud computing, the Internet of Things, and data science are the chief trending technologies that are deriving innovation and...

2020/09/22 20:09
18
0
Big data defined

Big data defined

2015/04/28 10:19
236
0
Chi-squared tests

1: Observed And Expected Frequencies In this mission, we'll be learning about the chi-squared test for categorical data. This test enables us to determine the statistical signif...

2016/09/22 18:13
25
0
Big data(大数据)

大数据概念 管理海量和多样化的信息资产。 海量数据的存储,和海量数据集的分析计算。 储存单位 Bit、byte、kb、mb、gb、tb、pb、eb、zb、yb、bb、nb、db 1Byte=8bit,1kb=1024byte,1mb=1024...

2020/03/10 17:36
14
0
论文翻译:Data mining with big data

原文: Wu X, Zhu X, Wu G Q, et al. Data mining with big data[J]. IEEE transactions on knowledge and data engineering, 2013, 26(1): 97-107. 大数据中的数据挖掘 Xindong Wu, Fellow...

2019/12/21 15:11
7
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部