【中國智能制造網 名家論談】大數據技術是解決眾多國家重大需求問題的共性基礎,必將成為重構社會和經濟的基本生產資料和生產力(底層架構和標配),它是國家創新驅動發展的核心驅動力。
近年來,大數據深刻影響著人們生活的方方面面。國務院通過《關于促進大數據發展的行動綱要》、中共中央十八屆五中全會確定實施國家大數據戰略……這些政策戰略對于人們深刻認識與準確把握大數據,意義重大、作用深遠。
理性認識數據
在人們的日常生活中,存在著很多資料形式,如文件、記錄、報告、表格、圖片、歌曲等,資料是對社會經濟生活片斷的記錄。如果資料存放在計算機上以編碼形式存在,那就是數據。數據是以編碼形式存在的信息載體,是資料的數字化形式,大數據是大而復雜的數據集,具有海量性、時變性、異構性、分布性等特征。
反映真實世界的數據(碎片)量己達到可以從一定程度上反映其真實面貌的程度,隨著信息獲取的發展,數據在積累過程中從量變發展到質變。量變是指數據量增加,質變是指量增加到了一定時刻使得人們通過數據的片斷就能大體判斷它背后的故事。
信息技術的革命性發展,使得人類社會已進入大數據時代。大數據泛指一個時代、一項技術、一種文化、一個挑戰,通常用四句話概括:擁有大數據是時代特征、解讀大數據是時代任務、應用大數據是時代機遇;能夠對復雜海量數據進行實時獲取、傳輸、存儲、加工和利用的高新技術;任何人都要以數據說話;現有的數據采集、傳輸、存儲、處理與分析技術己無法適用于現有的需要。
大數據的價值有四個方面值得大家關注。,提供社會科學的方法論:實現基于數據的決策,支持管理科學與實踐的革命;第二,提供科學研究的新范式:支持基于數據的科學發現;第三,形成高新科技的新領域:推動行業深化發展并形成大數據產業;第四,形成社會進步的新引擎:深刻改變人們的思維、生產、生活方式,推動社會進步。
發展大數據具有迫切性與重要性。大數據技術是解決眾多國家重大需求問題的共性基礎,必將成為重構社會和經濟的基本生產資料和生產力(底層架構和標配),它是國家創新驅動發展的核心驅動力。
準確把握機遇
聯合國2012年行動計劃報告中指出,大數據是一個歷史性的機遇,人們如今可以使用極為豐富的數據資源來對社會經濟進行的實時分析,幫助政府更好地響應社會和經濟運行。
一是管理創新機遇。管理問題難以有普適方法論,決策問題難以建模分析,大數據認識論與方法論為管理與決策科學研究與實踐提供了歷史性機遇。管理包括市場分析與營銷、輿情分析(社會、商業等)、政策分析與評估、金融風險分析和監控、工業系統智能控制、公共安全監控與治理、產業與經濟形勢評估等方面,這些都需要用到大數據。
二是產業發展機遇。人們都希望能夠彎道超車,實現中華民族崛起,但是中國的優勢到底在哪里?中國的優勢就是市場大、人口多,鑄就了大數據資源優勢,帶來彎道超車的可能性;為產業的不斷升級、形成新價值、新產業提供無限可能性。
三是科學研究機遇。數據收集、處理與分析能力的提升,將顯著提升人們對客觀世界的洞察的深度和可程序化探究問題的廣度。幫助人們發現新知識,創造新價值,形成新理念。
四是學科發展機遇。大數據摧生了數據科學,數據科學與人文社會科學、管理科學等學科的深度交叉與融合,將徹底打破和革新學科領域;“解讀大數據是時代任務”的要求將深刻改變和影響所有學科,這一改變將對大學的學科設置和人才培養產生重大影響,為大學培養適應國家創新發展所需要的人才提供機遇。
科學應對挑戰
在傳統統計方法中,以樣本趨于無窮的極限分布為基礎進行推斷,而大數據分析方法需要自然數據,依靠數據量和超強的計算能力直接進行分析。
在此過程中,出現很多認知論證的困惑:樣本等于母體?相關性能替代因果性?查詢能替代推斷?大數據可代替理論?同時,數據特征也發生改變,從中小規模、固定尺寸、非時變、單一結構、集中存儲,轉變為超大規模、分布存儲或數據源、流數據、超高維、異構等。如何科學應對挑戰?
一是重建分析基礎,包括重建統計學基礎和計算理論。在大數據分析與處理的統計學與計算基礎方面取得突破性進展,建立起若干新的理論,推動形成數據科學的基礎理論體系。
二是創新計算技術,包括創新計算模式和計算方法。在環境上,從單一結構(CPU,MIC)向混合結構(CPU+GPU+MIC共存協作計算)轉變;大數據到來之后,既要計算密集型,也要數據密集型,從傳統并行轉為分布式并行。提出適應異構計算環境下多粒度分布并行計算模式的系列算法(大數據算法),形成大數據處理與分析的核心技術。
三是建立真偽性判定準則,其目標是在國家重大需求的若干典型領域,形成大數據分析與處理的行業核心技術,促進相應領域新模式的形成,推動各行各業利用大數據的能力與水平。
目前,我們在實施系列重大研究計劃,聚焦大數據分析與處理的核心基礎與共性關鍵技術研究,力求在分析基礎、處理算法、真偽性判定、結合典型領域的示范應用等方面取得突破,為各行各業大數據應用提供科學支撐和共性技術支撐。
另外還有三個“不等于”也是需要人們關注的:,基礎設施不等于大數據,尤其是云計算不等于大數據;第二,信息化也不等于大數據,信息化是長遠的過程,它有不同的階段、不同的升級,是永恒的一件事情。大數據是從側面反映,是收集信息,更多講的是標準化、科學化、便捷化等;第三,數據處理不等于數據分析。要明確目標是前提,擁有數據是基礎,計算平臺是支撐,分析技術是核心,產生效益是根本。
總之,大數據技術是一個正在發展中的技術,在我們國家尤其應該解決的是公共政策問題,比如數據共享、數據質量、數據開放等問題,只有解決了這些問題才能讓大家共同使用。此外,大數據技術本身尚未成熟,科學基礎也還在建立之中,因此,當前首要任務是齊心協力按照自己的特長為社會做出貢獻,讓大數據為人們帶來大的價值。
(原標題:中國科學院院士徐宗本:用好大數據要有大智慧 注:本文根據中國科學院院士、西安交通大學教授徐宗本在“2017高等教育信息化創新論壇”上的演講內容整理,未經本人審閱。如涉及版權等問題請聯系小編更正)