时序数据分析书:漫画时序数据库
时序数据分析书:漫画时序数据库虽然时序数据跟整个数据管理相比只是其中很小的一个门类,但架不住传感器数量多,收集频率高。不少场景要求尽可能地收集传感器数据。其实,时序数据在生活中也很常见。看看,通用,西门子,再看看,宝武集团。工业制造为了管好高端装备和工程建筑物,就用传感器收集它们的数据。这是一种带有时间标签的数据,叫时序数据(Time Series data)。
图文原创:谭婧
互联网企业有句口号:距离成为百年企业,还有七八九十年。
互联网企业和工业制造企业比年龄,就输了。
工业制造企业的龙头,动不动就是百年企业。
看看,通用,西门子,再看看,宝武集团。
工业制造为了管好高端装备和工程建筑物,就用传感器收集它们的数据。
这是一种带有时间标签的数据,叫时序数据(Time Series data)。
其实,时序数据在生活中也很常见。
虽然时序数据跟整个数据管理相比只是其中很小的一个门类,但架不住传感器数量多,收集频率高。不少场景要求尽可能地收集传感器数据。
于是,时序数据的体量和占比在急剧变大。
举个例子,特斯拉车主到底有没有踩刹车,谁敢仅仅依据少量样本数据做判断。
如果一个东西占用的资源并不低,无论为了控制成本,还是挖掘价值,都会在这里头大做文章。
存好,用好,时序数据库呼之欲出。
但是,数据库是系统级别的产品,是基础软件,做出产品很难。
我来讲一些制造企业的例子,细聊工业时序数据几件有趣的事。
早在2013年,像这样的企业的一台挖掘机上,就会有几百个传感器。
而一台大型发电机组可能会有上万个传感器。
再看,像宝武集团这样的龙头工业企业,会以毫秒为单位采集,比如,5毫秒采集一次,或者10毫秒采集一次。
时序数据按时间顺序产生,
时序数据的新数据比旧数据常用。
时序数据写多更新少(或者说更新是批量化的)。
时序数据库的写入能力须快到飞起,甚至要求“超大规模数据瞬时写入”。
这还不够,要管理乱序数据。
这个工作让关系型数据库来干,就得说Sorry了。
因为关系型数据库做不到写入得这么多这么快,也不是为乱序数据管理而设计的。
网友说,这个要求很过分。
过不过分,得看具体情况。
把目光移到新疆哈密,甘肃酒泉,不仅看风机,还能看风景。
让你去观察一座桥梁的震动情况,你得重视监控的精确性。正常情况下,用100-1000Hz的频率去采集数据。
或者说,观察桥梁的震动,你得一秒钟观察上万次。
往大里说,得在分厘毫丝之间,保证人民群众的生命和财产。
变化,只发生在中国吗?
并不是。
赶上早班车的国际数据库产品包括:
开源时序数据库InfluxDB,在2013年发布。
闭源时序数据库Amazon Timestream,是AWS公司于2018 推出。
有预测,2025年时序数据库的市场规模在269亿元左右。
时序数据库,有不少有趣之处。
时间戳是所有时序数据必有的字段,数据大部分按照时间顺序到达。好比医生有很多病人,每个病人有号码牌,病人按顺序就诊。
查询也以时间为中心,比如指定时间点和时间段。
关系型数据库是一个集合。时序数据就是一个有时间顺序的集合。
时间戳是主键,是不能重复的信息。多了这个维度,就看怎么利用好。
数据库的“两条腿”是查询引擎和存储引擎。时序数据库的“两条腿”的设计必须融入时间维度的处理要素。
给时间戳加索引,就可以加快查询。
拿到数据,控制好设备,工作就结束了吗?
在自动化那一代产品的眼中,它们的工作就结束了。
在新兴时序数据库的眼中,工作没有结束。
生于自动化年代的知名数据库是Pi,它也是传统时序数据库的祖师爷。
这家美国公司的产品,国内电厂几乎家家都用。也有人称之为工业场景里的实时数据库。
Pi 的优势是在运营技术(Operational Technology,OT)生产场景,而在 OT 与大批量数据读写的 IT 结合场景,还有较大提升空间。
2021年它被施耐德以50亿美元收购。
这里有灵魂三问。
1.大型制造装备动辄几万个传感器,而且工业设备资产有层级属性。受限于关系数据模型,威力就会受限。
所以要问,能在数据模型上想办法吗?
2.过去默认传感器这个“端”只负责产生数据,现在不同了,把整理好的数据发送到云端,以减轻云上的压力“端”要承担更多工作量。
风机往往立在田野里,山坡上,甚至还有山东海上风机。时序数据传到工厂,而大型集团又可能会涉及多个工厂。
所以要问,能设计专门的传输方法吗?
3.最后再说文件格式,这会关系到编码方式和存储方式,影响占用多少存储空间,也会影响花多少力气传输。
同样的数据,用不同的文件格式,所占用的空间不同,所消耗的网络资源也不同。
省存储空间和省网络资源都可以省大钱。
所以要问,能在文件格式上想办法吗?
这三个问题有点难,而且涉及的技术维度非常底层。
其实时序数据库还有很多很难的问题等待被解决。
没有好的时序数据库,后面的分析,挖掘,人工智能应用就会吃力。
工作嘛,就讲究一个默契配合。
时序数据库属于一种AI基础设施,更是一种基础软件。
好了,
这回就聊到这吧。
差点忘了,特斯拉的历史很短,却引领了多项技术的标杆。
马斯克流量大,头脑清醒。
面对特斯拉如此多的优势,他却说:“制造能力是特斯拉最大的竞争力。”
有一种规律藏在制造业里好多年了,你肯定看出来了:那些称霸生产制造的国家,也同时称霸基础软件。
更多阅读
AI框架系列:
1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)
2.搞AI框架那帮人丨燎原火,贾扬清(二)
漫画系列
1. 万字大稿深度解读硅谷风投A16Z“50强”数据公司榜单
2. AI算法是兄弟,AI运维不是兄弟吗?
3. 大数据的社交牛逼症是怎么得的?
4. AI for Science这事,到底“科学不科学”?
5. 想帮数学家,AI算老几?
6. 给王心凌打Call的,原来是神奇的智能湖仓
7. 原来,知识图谱是“找关系”的摇钱树?
8. 为什么图计算能正面硬刚黑色产业薅羊毛?
9. AutoML科普:攒钱买个“调参侠机器人”划算吗?
10. AutoML科普:你爱吃的火锅底料,是机器人自动进货丨漫画
11. 强化学习科普:人工智能下象棋,走一步,能看几步?
DPU芯片系列:
1. 造DPU芯片,如梦幻泡影?丨虚构短篇小说
2. 永远不要投资DPU?
3. DPU加持下的阿里云如何做加密计算?
4. 哎呦CPU,您可别累着,兄弟CIPU在云上帮把手
长文系列:
1. 我怀疑京东神秘部门Y,悟出智能供应链真相了
2. 超级计算机与人工智能:大国超算,无人领航
3. 售前,航空母舰,交付,皮划艇:银行的AI模型上线有多难?
最后,再介绍一下主编自己吧,
我是谭婧,科技和科普题材作者。
为了在时代中发现故事,
我围追科技大神,堵截科技公司。
偶尔写小说,画漫画。
生命短暂,不走捷径。
原创不易,多谢转发
还想看我的文章,就关注“亲爱的数据”。
谭婧老师的漫画科普系列不开放授权转载,无授权转载,抄袭,盗版者,保留诉诸法律的权力。