默认冷灰
24号文字
方正启体

第411章 幻传承和创新(1/3)

作者:纯白色科幻宅
=本文内容纯属个人猜想,仅供参考=

=增量数据卡尺和减量数据卡尺=

增量数据和减量数据,本身就是一种源文件+增量和减量和修改数据日志的方式来记录。

本身就是对数据的每一次改动和注释,都可追溯。

比如:

某地星期一,西红柿的售价是5元每斤;西瓜的售价是10元每斤;胡萝卜的售价是2元每斤。

到了星期二,价格有所改变,西红柿变成了3元每斤(记为星期一西红柿价格-2元每斤=星期二西红柿价格);西瓜变成9元每斤(记为星期一西瓜价格-1元每斤=星期二西瓜价格);胡萝卜变成3元每斤(记为星期一胡萝卜价格+1元每斤=星期二胡萝卜价格)。

也就是说,当一个大数据,只有一部分有改动,改动只要没有达到百分之五十兼或设定值,那么就只能以日志的方式来存储,避免需要两个三个数据库硬件,一个数据库硬件为源文件数据库,一个数据库硬件为日志改动数据库,还有一个数据库为结果数据库,当用源文件+日志=结果数据库的方式,把结果数据库作为源文件数据库,那么就能够当做新的源文件数据库,这对于不需要调用历史数据的数据库很方便,然而对于需要调用历史数据库的数据,就很成问题。

特别是相互关联数据的调用,这也就导致一个包含100年时间1数据中,可能需要调用的,只是其中特定10年的1数据,这就导致了无端的解压缩过程中的硬件调用资源浪费,也就是非要把所有数据都解压缩成压缩前文件,才能应用,那么问题来了,物理考古学家,需要特定10年的物理当时的科研数据,生物考古学家,需要特定100年的生物当时的科研数据,古语言学家需要调用20年当时的语言数据,而物理数据包含在一个100年时间1数据中,生物数据包含在一个1000年1024数据中,语言数据包含在一个5000年4096数据中,怎么弄?

全部都全网在单机,每个使用者对应一个超级电脑用于解压缩,然后索引需要用到的内容?

70亿个使用者呢?是不是需要建造70亿个超级电脑硬件啊?

特别是有很多历史变迁问题,比如10年前,某个学科专有名词的学术名是,10年后,该学科专有名词的学术名是,然后每隔一段时间,学术名都有改变,突然一下去找100年前,这个学术名,那就麻烦了。

学科用大数据的应用,如果只考虑到当代使用,很容易就解决,
本章未完,请翻下一页继续阅读.........
(←快捷键) <<上一章 投推荐票 回目录 标记书签 下一页>> (快捷键→)