【中國智能制造網 名家論談】大數據共享與開放保護的挑戰,談三方面問題,大數據的共享與開放、大數據流通與交易、大數據的利用與保護。
中國工程院院士 鄔賀銓
現在大數據本身有物理空間的數據,有信息空間的書局,還有智慧空間的數據,這是三元數據。作為網絡層面的數據有自媒體數據、富媒體數據、基層網絡數據、日志數據,麥肯錫曾經講過大數據的利用能給美國的保健、歐洲公共管理服務的提供者分別帶來3000美元、2500億歐元和6000億美元的年度價值,會給經銷商帶來60%的利潤增加,會給制造業帶來50%的成本降低。麥肯錫曾經統計過,受教育、運輸、消費產品、電力、游戲、保健,如果政府開創數據,大約在保證國家安全和公民隱私的情況下開放數據,可以帶來年度的經濟價值32000億美元到54000億美元,所以大數據本身帶來的產業價值是很大的。
首先說共享,國務院關于促進大數據發展的行動綱要里提到推動政府信息系統和公共數據的互聯共享,消費信息孤島,避免重復建設和數據打架,增強政府的公信力,促進社會信用體系建設。大數據共享是談什么共享呢?政府部門之間的數據共享、跨行政區域政府間的信息共享、政府與企業間的數據的合作和共享、企事業單位之間的數據共享,這是很多方面的,當然我們可以先看政府層面的。需要設立大數據協同管理機構促進政府部門間的數據共享,必須有很多政府間合作才有很大得數據量,但是必須要健全地制造框架和制度體系,明確共享什么,明確參與共享的責任和義務,要有互利,否則共享是很難持久的。現在一些城市設立大數據局來做這個工作,比如廣州大數據管理局,主要做協調政府內部的信息平臺的共享,怎么打破部門之間的信息壁壘,共享各項民生數據。
另外需要建立進一步的基礎數據庫,一方面是要集中存儲被共享的數據,同時進行清晰、校驗和整合,提供可以共享的目錄,以便用戶可以接入和收取這些數據。當然還要規定訪問的權限,跟你沒關的數據你不見得都需要去訪問。還要災備等等。
這是政府基礎數據共享與交換平臺,首先包括人口數據、空間地理數據、宏觀地理數據、醫療數據、經濟數據,進行融合、重組、轉換、關聯、安全。提供服務可以提供部門之間綜合的服務,部門企業政府的數據共享。
按照行動綱要的要求,明年中央就要構建形成統一的互聯網數據平臺,習講要建立全國統一的數據集中的平臺,當然這是邏輯上的統一,是不是物理上都是統一,這可以研究。有一些跨神經區域的大數據共享合作的例子,這里講的是連云港有個區是跨山東和江蘇的,跨兩個省,它徹底打破了行政區劃的限制,整合了山東和江蘇相鄰的幾個地方的監控圖像數據,要做統計分析、軌跡展示、布防布控,實現一鍵查詢、統一風控報警、快速判定行竊軌跡等等,目前通過這個平臺抓獲了國內違反犯罪人員500多名,破案400余起,這僅僅是這一個區和周邊五個縣就已經取得這么好的成效。這是跨部門的大數據共享,發展行動綱要提出要加快建立公民法人和其他組織的統一社會信用代碼制度,要有企業的信息公示系統。目前已經建成了網絡執行查獲系統,現在已經有13個國家部門、3000多家銀行能夠查詢11類14項,使得全國法院可以了解所有被執行人的情況,實現自動化的查詢。
中央政府之間的共享,監察部對其他部門有監督作用,他可以共享其他部門的數據,不見得其他政府部門可以共享他的數據,中紀委的數據不太可能跟其他部門全部共享,部分的數據共享可能是不對稱的。中央政府跟地方政府間的數據共享也是不對稱的,中央政府可以看到所有地方政府的數據,但是不等于地方政府都能看到中央政府的數據。中央政府共享到什么層次,是省級、市級還有縣級現在沒有界定。政府數據共享到什么程度,是不是政府與政府部門之間所有工具都是透明的,至少公安部不會跟其他部門的數據透明。
政府跟企業間的數據共享是不對稱的,政府提供給企業的數據本身就是可以公開的數據,除此之外政府也不能只給某個企業提供信息,而不給另一個企業提供信息。從國家安全出發,政府是有權調用企業數據,但除此之外企業是不是有義務一定要向政府提供數據,這是有疑問的。在政府調用企業數據的情況下怎么保證企業的商業秘密不泄露,現在還沒有完成規范,企事業單位間的數據共享,這實際上是交易行為。在國家大數據行動綱要提到,2018年要開展政府和社會合作開發大數據的試點,不是簡單說政府調用企業的數據,而是政府怎么跟企業合作開發。在關于積極推進互聯網+行動計劃綱要,開展一批社會治理互聯網的應用試點,打通政府部門、企事業單位之間的信息壁壘,利用大數據分析手段提升政府的數據治理能力。政府為了很多數據,很多BAT數據政府是不擁有的,如果政府能把BAT數據融合在一起,對于政府能夠掌控社會智慧城市、中國的治理都會有很大的作用。
2013年在北愛爾蘭召開的會議提出了開放數據,發布數據是為了激勵創新。開放14個重點領域,這里邊非常詳細。開放數據三項共同行動,激發國家的行動計劃,每年都要評估政府開放數據的情況如何。要求發布的數據不是一般的數據,而是高價值的數據,包括預算、民主、環境,另外不僅僅是發布加工過的數據,還要有源數據,往往我們認為政府發布的數據是加工過的,實際上只要不影響國家安全和公民隱私,很多原始數據政府應該開放。開放的數據是要完整的、重要的、及時的,很重要讀,不要對某些公民開放,對某些公民不開放,不能說一定要有授權才能接入,不能開一陣就關掉了。共享是政府部門之間、政府和單位之間,開放是對社會,所以在這點上對開放的要求是很嚴格的。
美國政府有個開放網站,有些沒有開放,公民提出來要求開放的時候要分析,有些就立即開放,有些經過一段時間開放,因為安全隱私原因沒法開放要向政府交代。而且開放數據要屏蔽掉隱私,比如他開放人口數據,是安全編碼分區域的人口數據,老齡化的有多少,上學兒童有多少,男的多少女的多少等等,可以看出這個地方的情況,還有用電量、犯罪記錄、中小學評估等等,可以判斷這個地方的學區房值不值得賣。還有小區的污染、噪聲等等。還要注意到美國政府的開放數據同時開放了數據挖掘的工具,幫助老百姓利用這些數據,在政府開放數據的平臺收集了老百姓通過挖掘這些數據得出的可視化的結果,所以非常有利于公民對社會的了解。美國開放數據可以開放到很多方面,有交通、空氣污染、環境、支付各種。
這是英國的開放數據,他在網上,比如你的收入是2萬英鎊,你就點網上,把鼠標拉到2萬英鎊,得出你一年的稅收是8774英鎊,你的稅收用到哪里,用到政府運行,每天的稅收,1.69用在國防,每個人都可以很清楚地看到你的納稅在政府里的應用狀況,是陽光透明的。中間的大圖是英國總共收到的稅收,6948萬億英鎊,其中用在各個方面多少錢,就知道政府開支具體的狀況。中國政府開放得怎么樣?根據不完全統計,中國政府數據開放平臺超過40多,其中沿海經濟發達地區占總數的70%,西部中部還是比較少的,我們開放了教育、醫療、文體、環境,開放的數據存在什么問題?開放的總量偏低、結構化程度低、數據質量不高、民眾參與反饋不準。我們還有很多方面做得不夠。
以北京的政府開放數據為例,去年北京政府主動公開政府信息超過100萬條,跟2015年差不多,其中主動公開的文件不到1萬件,主動公開的重點政府領域信息73萬條,細看一下北京公開的政府信息里主要是關于食品安全標準和食品生產的占了一半,關于企業信用系統占40%,兩項加起來占了90%,剩下的只有10%,10%有政府的三公預算、農民征地、政府定價,實際上可以看到還是很不全面的,還有很多可以開放應該開放的數據沒有開放。公民關心食品安全,所以這方面的數據比較多。
聯合國電子政務發展指數,有三項,信息基礎設施、人力資源、在線服務的情況,其中在線服務跟開放數據有關。我們看到兩年統計一次,2016年開放電子政務發展好是英國,中國排第63位,還是比較靠后的。數據有個晴雨表,開放數據的準備程度、開放數據的執行力,開放了什么類型,質量怎么樣,開放數據的影響力、效果、透明性、對環境的影響、對國家經濟的影響。根據三方面來評價,2014年中國排在46位,位是英國100分,中國只有28分。2015年中國退后了,排在第55位,不是說中國2015年跟2014年比沒有前進,而是別的國家前進更多,相比之下中國得分排名反而下降。可以看到我們的影響力,特別是看到2015年的影響力只有8,我們也開放,但是我們開放的效果比較差,只有8,北京開放100萬條數據,從應用效果上來看反映還是不夠的。政府開放數據需要技術框架來支持,包括開放數據管理、開放數據技術、開放數據的門戶。今天我主要不是講技術,所以不細致地解釋這部分了。