北京2020年9月23日 /美通社/ -- 一直以来,从脑疾病的研究到大脑功能的解密,科学家从未停止过对大脑探索的步伐。在华中科技大学苏州脑空间信息研究院,科学家们正在做一件对于脑科学研究具有里程碑意义的事情:绘制一张可能是世界上最复杂的“地图” -- 灵长类全脑的三维图谱。
以小鼠三维脑图谱为例,科学家们通常先对小鼠进行脑成像:将鼠脑标本固定,用金刚刀从上至下、从左至右,将鼠脑标本顺次切成1微米厚度的薄片,一边切片一边拍照,照片实时存储到计算机系统之中。当鼠脑成像结束,脑科学家再根据这些二维照片合成三维脑图谱。
一个小鼠全脑有超7000万个神经元,绘制小鼠脑图谱需要张图片,未压缩的数据量高达8TB。人脑的体积大约是小鼠脑的1500倍,拥有860亿个神经元,人脑的三维图谱数据量将会再提升几个量级。现如今,单纯的脑成像已经不成问题,但成像之后巨大的数据量如何存储和分析成为当下脑科学等多个科研领域最为棘手的挑战。
是什么阻碍了“脑洞大开”
华中科大苏州脑空间信息研究院所遇到的情况是科研机构在新数据时代下的一个缩影。
一方面,得益于国家经济实力的不断提升,科学研究投入持续加大。根据《2019年全国科技经费投入统计公报》显示,2019年全国研究与试验发展经费首次突破2万亿元,达到.6亿元,同比增长12.5%。
另一方面,数字化正在改变科研模式,过去相对薄弱的数字基础设施开始面临升级,亟需符合未来研发需求的新型基础设施。正如发改委今年首次明确了新基建的范围,将支撑科学研究等具有公益性质的重大科技、科教基础设施划分为创新基础设施,属于新基建未来重点投入方向。
“当前科研领域在存储等基础设施方面主要有容量、性能和稳定性三个典型挑战。”华中科技大学计算机学院院长冯丹教授在浪潮云数智中国行武汉峰会上如是说。
华中科技大学计算机学院院长冯丹教授
与其他行业相比,数据在科研领域的生产要素属性更加快速显现。科研数据往往具有数据密集型范式的特点,具有数据量巨大的特征。以目前世界上灵敏度最高的射电望远镜中国天眼项目为例,每天产生约500TB的零级未压缩数据,预计未来十年数据量将超过100PB,对长期运行产生的海量数据进行存储与计算分析正在深刻改变其科研模式,如何存储与保护这些海量数据就成为巨大挑战。
此外,随着海量数据的产生,科研机构通常希望能够让数据采集、处理和存储的速度提升,以更好、更快支撑起科学研究。冯丹教授表示:“科研项目对于性能一直很关注。早年前,像新材料研发这些研究可能数据量不会很大,但对于后端存储性能要求极高。现在,科研的数据量普遍很大,对于存储性能的要求就更高了。”
例如,华中科大苏州脑空间信息研究院存储人脑三维图谱数据,如果采用之前的成像系统,一台系统至少需要花费20年时间才能完成数据的采集,这无疑是当前科研机构们所不能接受的,因此需要存储具有分布式横向扩展能力,提升其并发性能,让数据的采集与分析更加快速,确保其研究项目的高效。
第三就是稳定和可靠,科研数据除了数据量之外,高质量与完整性也至关重要,因此对于存储系统的稳定性和可靠性要求越来越高。存储越稳定和可靠,意味着对高质量科研数据的存储与完整就越有保障。
以清华大学RUSH脑成像研究项目为例,其对拥有1亿神经元的小鼠大脑进行研究,28台1200万像素相机以每秒30帧、连续72小时的方式对小鼠进行拍摄,每天将产生2.7PB左右的数据,最后将这些图片拼接成三维图像序列,存储系统需要满足最长72小时拍摄过程中PB数据不丢帧。
事实上,在新数据时代加速到来的今天,包括科研领域的各行各业都在加快数字化的步伐,也直接驱动着存储等基础设施走向新的变革。
为数字化提速,存储有哪些重要趋势
当下,数据正在成为最重要的生产要素,是数字化转型和智能化升级的基础。年初的《关于构建更加完善的要素市场化配置体制机制的意见》报告中首次新增“数据”要素,并指出要发挥“数据”这一新型要素对其他要素效率的倍增作用,使数据成为推动经济高质量发展的新动能。
这恰恰是新数据时代到来的体现。就像科研领域越来越重视数据一样,各行各业都渴望充分利用数据的价值、为数字化提速,使得与数据密切打交道的存储呈现出重要的新趋势。“在数据呈现爆炸性增长的趋势下,随着算力的提升和数据的积累,大数据智能成为发展趋势,也给存储系统带来一系列新变化。”冯丹教授直言。
文章来源:《探索科学》 网址: http://www.tskxzzs.cn/zonghexinwen/2020/0924/773.html