默认冷灰
24号文字
方正启体

第424章 幻当程序员小白用自然语言编程时会怎样?(1/2)

作者:纯白色科幻宅
=数据卡尺=

如何用统计学的知识,来应用在数据上呢?

-第一步-

要弄明白统计学和数据之间的共性和非共性。

统计学:每一个数据无论其数值是多少,其本身就作为一个数值独占的存在体,然而统计学本身就有意和无意的忽略了各个数值的先后排列。

数据:每一个数据无论其数值是多少,其本身就作为一个数值独占的存在体,然而数据本身很注重各个数值的先后排列。

比如:

用统计学来表示,就是出现了5次,出现了2次,出现了1次,出现了1次,出现了2次。

用数据来表示,就是。

那么如何把数据快速的解压缩出来呢?可以使用分段压缩方式,比如把一个大文件,分割成一个个片段,例如:

.张三和李四一起去喝酒。

那么,就可以根据前面的数据,本身就是采用英文的方式,也就是最多是52进制(区分大小写),而后面的中文可就麻烦了,毕竟中文本身进制相当大,那么就需要进行大进制处理。

用统计学的方法,就是把数据平均分,然后分割成可以互相对齐的数据个体,然后统计这些数据个体各出现了多少次。

然后进行统计,把统计数据记录下去。

也就是说,把大英百科全书的纯文本内容用统计学的方式记录下来,就能对应到大小写英文字母+符号+空格+换行+换页……

那么就能够统计出各英文字母出现过多少次,这导致的就是数据能够很好把所有元素给还原出来,只是这些元素之间的排列组合,就随着数据长度的变大而趋向更高运算量。

最简单的方法,就是用三种统计方法:

如字母矩阵:

为了快速得知每个数字的排列方式,可以进行统计校验

每一行的第一列中出现的次数为2次

每一行的第二列中出现的次数为0次

第一行中出现的次数为2次

第二行中出现的次数为3次

在整个文本中出现过12次

以此类推,就能使用数独的方式,逆推出去掉了很多排列组合的有限数量的排列组合方式,然后这些排列组合就能通过其他校验方式,比如5,比如128和其他校验方式快速找出正确的排列组合。

这种方式,就是使用小公式重复使用的方式,快速生成数据的片段,然后只需要把数
本章未完,请翻下一页继续阅读.........
(←快捷键) <<上一章 投推荐票 回目录 标记书签 下一页>> (快捷键→)