jquery数据折叠_通过位折叠缩小大数据

jquery数据折叠

Sometimes your dataset is just too large, and you need a way to shrink it down to a reasonable size. I am suffering through this right now as I work on different machine learning techniques for checkers. I could work for over 18 years and buy over 10 petabytes of data to solve it, but I would rather just give up on some of the quality of the solution, get a program that can play checkers well, and use fewer resources in the process.

有时您的数据集过大,您需要一种将其缩小到合理大小的方法。 当我为跳棋员开发不同的机器学习技术时,我现在正遭受这种痛苦。 我可以工作18年以上,并购买超过10 PB的数据来解决它 ,但是我宁愿放弃一些解决方案的质量,获得一个可以很好地运行检查程序并在此过程中使用更少资源的程序。

One technique you can use is called bit folding. This technique is similar to hashing in that the function is one way and it can produce the same result for multiple inputs. This latter phenomenon is known as collision. While collision has a bad connotation when hashing, we need collision in order for this to work for data shrinking.

您可以使用的一种技术称为位折叠。 该技术类似于哈希,因为函数是一种方式,并且可以为多个输入产生相同的结果。 后一种现象称为碰撞。 尽管在散列时冲突具有不好的含义,但我们需要冲突才能使其在数据收缩时起作用。

When folding bits, you start with your data in binary form. Then, you start folding the bits into one another, losing half of the information that you had in the two bits. How do you combine the bits? When you start with bits A and B, you may choose one of the seven operations shown in Table 1 to condense the information.

折叠位时,您将从二进制格式的数据开始。 然后,您开始将位相互折叠,从而丢失了两位中一半的信息。 您如何组合位? 当您从位A和B开始时,可​​以选择表1所示的七个操作之一来压缩信息。

Image for post
Table 1
表格1

Upon first observation, one may notice several combinations missing. First, outputs of all zeros and all ones are not present. This result would zeroize the information, not condense it. We do not want to remove all of the information in the input bits; we just want to shrink the information. Second, we omit all of the inverses of these outputs because inverses convey the same information as one another.

首次观察时,可能会注意到缺少几种组合。 首先,不存在全零和全零的输出。 该结果将使信息归零,而不是压缩信息。 我们不想删除输入位中的所有信息。 我们只想缩小信息范围。 其次,我们忽略了这些输出的所有反函数,因为反函数相互传递相同的信息。

I wrote a short Python script that you can use to fold your bits. The first function is gen_param(size). This function generates random parameters for bit folding given the size of the input data that you want to fold. It returns two lists. The first list maps which bits to fold into which other bits, and the second gives the operations that you will use for each fold. We generate random parameters because the data is already too large, so you just need random fold parameters to help you shrink the data. Once you shrink the data and test it, you can compare randomly generated parameters to one another for improved performance. The second function, fold(value, new_size, mapping, ops), takes your parameters and returns your value folded into the size new_size.

我写了一个简短的Python脚本,您可以用它折叠位。 第一个函数是gen_param(size)。 给定您要折叠的输入数据的大小,此函数将为位折叠生成随机参数。 它返回两个列表。 第一个列表将要折叠的位映射为其他位,第二个列表给出了每次折叠将使用的操作。 我们生成随机参数是因为数据已经太大,因此您只需要随机折叠参数即可帮助您缩小数据。 收缩数据并对其进行测试后,可以将随机生成的参数相互比较以提高性能。 第二个函数fold(value,new_size,mapping,ops),获取您的参数并返回折叠为new_size大小的值。

If your dataset is too large and you are looking for ways to shrink the data, try out my program. I use comparison testing between two sets of parameters to find the better one and improve my algorithms. With data sets that are too large, bit folding gives you speed and wieldy data sizes in exchange for precision.

如果您的数据集太大,并且您正在寻找缩小数据的方法,请尝试我的程序。 我使用两组参数之间的比较测试来找到更好的参数并改进算法。 对于过大的数据集,位折叠可为您提供速度快而复杂的数据大小,以换取精度。

翻译自: https://medium.com/swlh/shrinking-big-data-with-bit-folding-4ea0aa6a055d

jquery数据折叠

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/388622.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新鬼影病毒

今天和明天是最后两天宿舍有空调的日子啦,暑假宿舍没空调啊,悲催T__T 好吧,今天是最精华的部分啦对于鬼影3的分析,剩下的都是浮云啦,alg.exe不准备分析了,能用OD调试的货.分析起来只是时间问题.但是MBR和之后的保护模式的代码就不一样啦同学们,纯静态分析,伤不起啊,各种硬编码,…

Silverlight:Downloader的使用(event篇)

(1)Downloader的使用首先我们看什么是Downloader,就是一个为描述Silverlight plug-in下载功能的集合.Downloader能异步的通过HTTP GET Request下载内容.他是一个能帮助Silverlight下载内容的一个对象,这些下载内容包括(XMAL content,JavaScript content,ZIP packages,Media,ima…

决策树信息熵计算_决策树熵|熵计算

决策树信息熵计算A decision tree is a very important supervised learning technique. It is basically a classification problem. It is a tree-shaped diagram that is used to represent the course of action. It contains the nodes and leaf nodes. it uses these nod…

Free SQLSever 2008的书

Introducing SQL Server 2008 http://csna01.libredigital.com/?urss1q2we6这是一本提供自由使用书!我把它翻译,或转送有什么关系!这样的书还是有几本吧,Introducing Linq,Introducting Silverlight,都是啊!嘿嘿。。。…

流式数据分析_流式大数据分析

流式数据分析The recent years have seen a considerable rise in connected devices such as IoT [1] devices, and streaming sensor data. At present there are billions of IoT devices connected to the internet. While you read this article, terabytes and petabytes…

Jenkins自动化CI CD流水线之8--流水线自动化发布Java项目

一、前提 插件:Maven Integration plugin 环境: maven、tomcat 用的博客系统代码: git clone https://github.com/b3log/solo.git 远端git服务器: [gitgit repos]$ mkdir -p solo [gitgit repos]$ cd solo/ [gitgit solo]$ git --…

数据科学还是计算机科学_数据科学101

数据科学还是计算机科学什么是数据科学? (What is data science?) Well, if you have just woken up from a 10-year coma and have no idea what is data science, don’t worry, there’s still time. Many years ago, statisticians had some pretty good ideas…

开机流程与主引导分区(MBR)

由于操作系统会提供所有的硬件并且提供内核功能,因此我们的计算机就能够认识硬盘内的文件系统,并且进一步读取硬盘内的软件文件与执行该软件来完成各项软件的执行目的 问题是你有没有发现,既然操作系统也是软件,那么我的计算机优势…

肤色检测算法 - 基于二次多项式混合模型的肤色检测。

由于CSDN博客和博客园的编辑方面有不一致的地方,导致文中部分图片错位,为不影响浏览效果,建议点击打开链接。 由于能力有限,算法层面的东西自己去创新的很少,很多都是从现有的论文中学习,然后实践的。 本文…

oracle解析儒略日,利用to_char获取当前日期准确的周数!

总的来说周数的算法有两种:算法一:iw算法,每周为星期一到星期日算一周,且每年的第一个星期一为第一周,就拿2014年来说,2014-01-01是星期三,但还是算为今年的第一周,可以简单的用sql函…

js有默认参数的函数加参数_函数参数:默认,关键字和任意

js有默认参数的函数加参数PYTHON开发人员的提示 (TIPS FOR PYTHON DEVELOPERS) Think that you are writing a function that accepts multiple parameters, and there is often a common value for some of these parameters. For instance, you would like to be able to cal…

2018大数据学习路线从入门到精通

最近很多人问小编现在学习大数据这么多,他们都是如何学习的呢。很多初学者在萌生向大数据方向发展的想法之后,不免产生一些疑问,应该怎样入门?应该学习哪些技术?学习路线又是什么?今天小编特意为大家整理了…

相似邻里算法_纽约市-邻里之战

相似邻里算法IBM Data Science Capstone ProjectIBM Data Science Capstone项目 分析和可视化与服装店投资者的要求有关的纽约市结构 (Analyzing and visualizing the structure of New York City in relation to the requirements of a Clothing Store Investor) 介绍 (Introd…

linux质控命令,Linux下microRNA质控-cutadapt安装

如果Linux系统已安装pip或conda,cutadapt的安装相对简便一些,示例如下:1.pip安装pip install --user --upgrade cutadapt添加环境变量echo export PATH$PATH:/your path/cutadapt-1.10/bin >> ~/.bashrc2.conda安装conda install -c b…

linux分辨率和用户有关吗,Linux系统在高分屏非正常分辨率显示

问题描述:win10重装为Ubuntu16.04,在1920x1080的显示屏上,linux系统分辨率只有800x600xrandr # 查看当前显示分辨率#输出:[Screen 0: minimum 800 x 600, current 800 x 600, maximum 800 x 600]可以看出显示屏最小为800x600&…

数据透视表和数据交叉表_数据透视表的数据提取

数据透视表和数据交叉表Consider the data of healthcare drugs as provided in the excel sheet. The concept of pivot tables in python allows you to extract the significance from a large detailed dataset. A pivot table helps in tracking only the required inform…

金融信息交换协议(FIX)v5.0

1. 什么是FIXFinancial Information eXchange(FIX)金融信息交换协议的制定是由多个致力于提升其相互间交易流程效率的金融机构和经纪商于1992年共同发起。这些企业把他们及他们的行业视为一个整体,认为能够从对交易指示,交易指令及交易执行的高效电子数…

linux行命令测网速,Linux命令行测试网速的方法

最近给服务器调整了互联网带宽的限速策略,调到100M让自己网站也爽一下。一般在windows上我喜欢用speedtest.net来测试,测速结果也被大家认可。在linux上speedtest.net提供了一个命令行工具speedtest-cli,用起来很方便,这里分享一下…

图像处理傅里叶变换图像变化_傅里叶变换和图像床单视图。

图像处理傅里叶变换图像变化What do Fourier Transforms do? What do the Fourier modes represent? Why are Fourier Transforms notoriously popular for data compression? These are the questions this article aims to address using an interesting analogy to repre…

C#DNS域名解析工具(DnsLookup)

C#DNS域名解析工具(DnsLookup) DNS域名解析工具:DnsLookup 输入域名后点击Resolve按钮即可。 主要实现代码如下: private void btnResolve_Click ( object sender, EventArgs e ) {lstIPs.Items.Clear ( ); //首先把结果里的ListBox清空 try {IPHostE…