jquery数据折叠_通过位折叠缩小大数据

jquery数据折叠

Sometimes your dataset is just too large, and you need a way to shrink it down to a reasonable size. I am suffering through this right now as I work on different machine learning techniques for checkers. I could work for over 18 years and buy over 10 petabytes of data to solve it, but I would rather just give up on some of the quality of the solution, get a program that can play checkers well, and use fewer resources in the process.

有时您的数据集过大,您需要一种将其缩小到合理大小的方法。 当我为跳棋员开发不同的机器学习技术时,我现在正遭受这种痛苦。 我可以工作18年以上,并购买超过10 PB的数据来解决它 ,但是我宁愿放弃一些解决方案的质量,获得一个可以很好地运行检查程序并在此过程中使用更少资源的程序。

One technique you can use is called bit folding. This technique is similar to hashing in that the function is one way and it can produce the same result for multiple inputs. This latter phenomenon is known as collision. While collision has a bad connotation when hashing, we need collision in order for this to work for data shrinking.

您可以使用的一种技术称为位折叠。 该技术类似于哈希,因为函数是一种方式,并且可以为多个输入产生相同的结果。 后一种现象称为碰撞。 尽管在散列时冲突具有不好的含义,但我们需要冲突才能使其在数据收缩时起作用。

When folding bits, you start with your data in binary form. Then, you start folding the bits into one another, losing half of the information that you had in the two bits. How do you combine the bits? When you start with bits A and B, you may choose one of the seven operations shown in Table 1 to condense the information.

折叠位时,您将从二进制格式的数据开始。 然后,您开始将位相互折叠,从而丢失了两位中一半的信息。 您如何组合位? 当您从位A和B开始时,可​​以选择表1所示的七个操作之一来压缩信息。

Image for post
Table 1
表格1

Upon first observation, one may notice several combinations missing. First, outputs of all zeros and all ones are not present. This result would zeroize the information, not condense it. We do not want to remove all of the information in the input bits; we just want to shrink the information. Second, we omit all of the inverses of these outputs because inverses convey the same information as one another.

首次观察时,可能会注意到缺少几种组合。 首先,不存在全零和全零的输出。 该结果将使信息归零,而不是压缩信息。 我们不想删除输入位中的所有信息。 我们只想缩小信息范围。 其次,我们忽略了这些输出的所有反函数,因为反函数相互传递相同的信息。

I wrote a short Python script that you can use to fold your bits. The first function is gen_param(size). This function generates random parameters for bit folding given the size of the input data that you want to fold. It returns two lists. The first list maps which bits to fold into which other bits, and the second gives the operations that you will use for each fold. We generate random parameters because the data is already too large, so you just need random fold parameters to help you shrink the data. Once you shrink the data and test it, you can compare randomly generated parameters to one another for improved performance. The second function, fold(value, new_size, mapping, ops), takes your parameters and returns your value folded into the size new_size.

我写了一个简短的Python脚本,您可以用它折叠位。 第一个函数是gen_param(size)。 给定您要折叠的输入数据的大小,此函数将为位折叠生成随机参数。 它返回两个列表。 第一个列表将要折叠的位映射为其他位,第二个列表给出了每次折叠将使用的操作。 我们生成随机参数是因为数据已经太大,因此您只需要随机折叠参数即可帮助您缩小数据。 收缩数据并对其进行测试后,可以将随机生成的参数相互比较以提高性能。 第二个函数fold(value,new_size,mapping,ops),获取您的参数并返回折叠为new_size大小的值。

If your dataset is too large and you are looking for ways to shrink the data, try out my program. I use comparison testing between two sets of parameters to find the better one and improve my algorithms. With data sets that are too large, bit folding gives you speed and wieldy data sizes in exchange for precision.

如果您的数据集太大,并且您正在寻找缩小数据的方法,请尝试我的程序。 我使用两组参数之间的比较测试来找到更好的参数并改进算法。 对于过大的数据集,位折叠可为您提供速度快而复杂的数据大小,以换取精度。

翻译自: https://medium.com/swlh/shrinking-big-data-with-bit-folding-4ea0aa6a055d

jquery数据折叠

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/388622.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js基础语法

||与&& a && b : 将a, b转换为Boolean类型, 再执行逻辑与, true返回b, false返回aa || b : 将a, b转换为Boolean类型, 再执行逻辑或, true返回a, false返回b转换规则:对象为true非零数字为true非空字符串为true其他为false * 几乎所有语言中||和&&都遵…

新鬼影病毒

今天和明天是最后两天宿舍有空调的日子啦,暑假宿舍没空调啊,悲催T__T 好吧,今天是最精华的部分啦对于鬼影3的分析,剩下的都是浮云啦,alg.exe不准备分析了,能用OD调试的货.分析起来只是时间问题.但是MBR和之后的保护模式的代码就不一样啦同学们,纯静态分析,伤不起啊,各种硬编码,…

php计算单双,PHP中单双号与变量

例子$string "beautiful";$time "winter";$str This is a $string $time morning!;echo $str. "";eval("\$str \"$str\";");echo $str;?>输出:This is a $string $time morning!This is a beautiful win…

Silverlight:Downloader的使用(event篇)

(1)Downloader的使用首先我们看什么是Downloader,就是一个为描述Silverlight plug-in下载功能的集合.Downloader能异步的通过HTTP GET Request下载内容.他是一个能帮助Silverlight下载内容的一个对象,这些下载内容包括(XMAL content,JavaScript content,ZIP packages,Media,ima…

决策树信息熵计算_决策树熵|熵计算

决策树信息熵计算A decision tree is a very important supervised learning technique. It is basically a classification problem. It is a tree-shaped diagram that is used to represent the course of action. It contains the nodes and leaf nodes. it uses these nod…

多亏了这篇文章,我的开发效率远远领先于我的同事

欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 本文由独木桥先生发表于云社区专栏 介绍 如果您有从Linux服务器上的源代码安装软件的经验,您可能会遇到make实用程序。该工具主要用于自动编译和构建程序。它允许应用程序的作者轻松地布置构建该…

Free SQLSever 2008的书

Introducing SQL Server 2008 http://csna01.libredigital.com/?urss1q2we6这是一本提供自由使用书!我把它翻译,或转送有什么关系!这样的书还是有几本吧,Introducing Linq,Introducting Silverlight,都是啊!嘿嘿。。。…

流式数据分析_流式大数据分析

流式数据分析The recent years have seen a considerable rise in connected devices such as IoT [1] devices, and streaming sensor data. At present there are billions of IoT devices connected to the internet. While you read this article, terabytes and petabytes…

oracle failover 区别,Oracle DG failover 实战

Oracle dataguardfailover实战操作步骤备库:SQL> ALTER DATABASE RECOVER MANAGED STANDBY DATABASE FINISH FORCE;SQL> ALTER DATABASE COMMIT TO SWITCHOVER TO PRIMARY;SQL> SHUTDOWN IMMEDIATE;SQL> STARTUP;添加临时文件,删除老的临时文…

Jenkins自动化CI CD流水线之8--流水线自动化发布Java项目

一、前提 插件:Maven Integration plugin 环境: maven、tomcat 用的博客系统代码: git clone https://github.com/b3log/solo.git 远端git服务器: [gitgit repos]$ mkdir -p solo [gitgit repos]$ cd solo/ [gitgit solo]$ git --…

oracle数据泵导入很慢,impdp导入效率的问题

内网从一台服务器A导入到另一台服务器B,38G的数据半个多小时才导了一个表。原来B库上是有数据的,是不是因为TABLE_EXISTS_ACTIONREPLACE 导致速度慢了?parallel8也不知道会不会设高了。SQL> show parameter cpuNAME …

BZOJ2597 WC2007剪刀石头布(费用流)

考虑使非剪刀石头布情况尽量少。设第i个人赢了xi场,那么以i作为赢家的非剪刀石头布情况就为xi(xi-1)/2种。那么使Σxi(xi-1)/2尽量小即可。 考虑网络流。将比赛建成一排点,人建成一排点,每场未确定比赛向比赛双方连边,确定比赛向赢…

数据科学还是计算机科学_数据科学101

数据科学还是计算机科学什么是数据科学? (What is data science?) Well, if you have just woken up from a 10-year coma and have no idea what is data science, don’t worry, there’s still time. Many years ago, statisticians had some pretty good ideas…

开机流程与主引导分区(MBR)

由于操作系统会提供所有的硬件并且提供内核功能,因此我们的计算机就能够认识硬盘内的文件系统,并且进一步读取硬盘内的软件文件与执行该软件来完成各项软件的执行目的 问题是你有没有发现,既然操作系统也是软件,那么我的计算机优势…

肤色检测算法 - 基于二次多项式混合模型的肤色检测。

由于CSDN博客和博客园的编辑方面有不一致的地方,导致文中部分图片错位,为不影响浏览效果,建议点击打开链接。 由于能力有限,算法层面的东西自己去创新的很少,很多都是从现有的论文中学习,然后实践的。 本文…

oracle解析儒略日,利用to_char获取当前日期准确的周数!

总的来说周数的算法有两种:算法一:iw算法,每周为星期一到星期日算一周,且每年的第一个星期一为第一周,就拿2014年来说,2014-01-01是星期三,但还是算为今年的第一周,可以简单的用sql函…

密码机

树状数组1 #include<bits/stdc.h>2 using namespace std;3 int x,y,c[200005];4 char str[20];5 int inline read(){6 int x0,f1;7 char chgetchar();8 while(ch<0||ch>9)9 chgetchar(); 10 while(ch>0&&ch<9){ 11 …

js有默认参数的函数加参数_函数参数:默认,关键字和任意

js有默认参数的函数加参数PYTHON开发人员的提示 (TIPS FOR PYTHON DEVELOPERS) Think that you are writing a function that accepts multiple parameters, and there is often a common value for some of these parameters. For instance, you would like to be able to cal…

sql management studio 附加mdf文件出错的解决办法

将mdf文件所在文件夹的权限改为everyone.&#xff0c;完全控制即可。

oracle raise_application_error,RAISE_ APPLICATION_ ERROR--之异常处理

平时用来测试的异常处理我们都是通过dbms_output.put_line来输出异常信息&#xff0c;但是在实际的应用中&#xff0c;需要把异常信息返回给调用的客户端。其实 RAISE_APPLICATION_ERROR 是将应用程序专有的错误从服务器端转达到客户端应用程序(其他机器上的SQLPLUS或者其他前台…