】 【打 印】 
全球疫情數據幕後:五人團隊完成大部分工作
http://www.crntt.hk   2020-04-18 16:26:07
  中評社北京4月18日電/澎湃新聞據Nature自然科研微信公號4月18日消息,2019年12月,中國出現COVID-19,原本正在研究令人憂心的麻疹疫情的董恩盛轉而開始追蹤這一新發的傳染病。董恩盛是美國馬里蘭州約翰斯·霍普金斯大學土木與系統工程專業的一年級博士生,重點研究方向是疾病流行病學。

  1月22日,董恩盛與其導師Lauren Gardner(霍普金斯大學系統科學與工程中心(CSSE)聯合主任)一起發布了記錄疫情擴散的綫上“儀表盤”(dashboard)。

  這個疫情“儀表盤”和它的追蹤對象一樣,很快便傳開了。目前已是全球新聞網站和電視節目的常用參考,用來追蹤全球範圍內的COVID-19確診病例數、死亡病例數和治愈出院人數。現在,這個董恩盛用了幾小時就建立起來的網站的日點擊量已超過10億次。

  難得的實時機會

  Gardner團隊研究的是群體的行為方式(比如流動性等因素)會如何影響疾病風險。他們通過構建數學模型,預測可能會出現的疾病熱點地區。

  她說,SARS-CoV-2引起的COVID-19突然在武漢暴發,創造了一個“難得的構建新發傳染病實時數據集的機會”。

  她的團隊可以利用這類數據,為可能的疾病傳播構建更准確的數學模型。不過,認識到其他研究人員也能從中獲益,團隊決定讓更多的人可以用上這些數據。

  “這可以算是一個心血來潮的念頭,當時說的是,我們來構建一個數據集吧,堅持做下去,把它公開。再者,讓我們更進一步,趁熱打鐵把它可視化。然後,我們當天晚上就做好了這個儀表盤。”
<nextpage>
  Gardner說起初的目標受衆是科研群體,比如其他流行病學家和疾病建模師等,但最後卻引起了全世界的關注。這個數據集每天有超過10億次互動——這個數字包括瀏覽儀表盤的人和挖掘底層數據的人,Gardner說。

  團隊最初預計訪問人數會在數百上千量級,“我想我們倆都沒料到公衆會有這麼大的興趣。”

  董恩盛表示,疫情儀表盤的構建很簡單,部分是因為他們團隊先前已經構建過類似的東西。在COVID-19疫情暴發前,Gardner和董恩盛就在用ArcGIS尋找可能出現的麻疹熱點地區,并將建模結果可視化——ArcGIS是總部位於加州的易智瑞(Esri)推出的一個地理空間制圖工具。這方面的經驗讓構建COVID-19疫情儀表盤的工作變得非常簡單。

  數據來自各式各樣的渠道,包括社交媒體、世衛組織、美國疾控中心、歐洲疾病預防控制中心、中國國家衛健委,以及世界各地的其他媒體和衛生部門。研究人員對這些數據進行收集整合,并在GitHub上發布。

  董恩盛說,在那之後,團隊開始使用Esri的ArcGIS平台進行可視化渲染。

  最初,這些數據都是靠手動收集和輸入的,一開始是董恩盛自己,然後由一些學生全天候輪流更新。但隨著疫情的擴散,這種方式很快就難以為繼。

  為此,團隊著力尋找能讓流程自動化的方法。如今,這個疫情儀表盤主要采用自動化網頁抓取和數據聚合,近乎實時更新。(由於疫情數據的更新非常及時,實際上,它通報的一些國家的最早病例常常早於當地衛生部門。)

  底層數據集被儲存在代碼共享網站GitHub上,被“標星”(點贊)近2萬次,有近1700條建議或錯誤報告提交,并有超過350條數據修改建議(“pull request”)。

  根據穀歌學術的數據,《柳葉刀-傳染病》2月19日發表的一篇介紹該疫情儀表盤的論文已經被引用了79次。
<nextpage>
  Gardner說,要跟上每一條建議、問詢和錯誤修複幾乎是做不到的。

  “事情太多了,如果我們有一百個人,我們就能把反饋匯總起來做點什麼,那當然很好,但可惜的是,很多事我們都顧不上。”

  盡管Gardner的三人團隊——第三名成員是博士生杜鴻儒——已經發展成近24人的團隊,得到了來自CSSE其他學生、學校媒體與傳播團隊、約翰斯·霍普金斯應用物理實驗室,以及制圖軟件公司Esri的幫助。

  但五人的核心團隊完成了其中大部分工作。“當疫情結束,人們可以再次社交和旅行後,我們所有人都該好好放個假。”Gardner說。那麼,現在的她一天要工作多少時間?“全部的時間。”她平靜地說道。

  疫情的速度、範圍和傳播讓團隊的動作越來越快。但疫情數據的使用度也在飆升,Gardner說。比如,應用物理實驗室和Esri的團隊就被派來確保疫情數據在訪問量激增時可以正常運行。
  “他們負責管理整個服務器,確保服務器不癱瘓,因為當每小時的點擊量達到10億的時候,服務器肯定承受不了這種負荷,”她說,“我們有好幾次都要重新設計整個架構,并多次為服務器升級。”

  地緣政治上的問題也讓事情變得更加複雜。隨著受到新冠病毒感染的國家越來越多,團隊不得不面對一項挑戰:對於有些地方的名稱,不同的政府機構在通報病例時有不同的叫法。

  “顯然,世界上有不少地方并沒有一個統一的名字。”她說。在遭到“大規模抵制”後,團隊最終決定采用美國國務院發布的命名慣例。
<nextpage>
  “諸如此類的事情非常勞心傷神,但它們又是很嚴肅的問題。”她說。

  Gardner說疫情數據帶來了新的合作,增加了她的團隊和她所屬中心的曝光度。“我確實期待這一切能為我們團隊帶來不錯的機會,事實也確實如此。”她說。比如,美國NASA將資助團隊研究“季節性和氣候”對新冠病毒的影響。

  處理數據

  到目前為止,整個團隊已經日夜奮戰10周了,他們全身心地撲在疫情數據的維護上,以至於很少有時間去分析儀表盤上的具體數據。

  “過去這周,我們用在分析上的時間首次超過了收集數據的時間,這比我們過去一段時間里做的任何工作都要有趣多了。”她說。

  Gardner說,其他能讓數據更具體的變量,比如病死率和檢測率,還要再等等,不過下周應該可以上綫。團隊現在主要側重對全美疫情的“風險評估”進行建模,以及分析哪些因素推動了病  毒在全球擴散。

  Gardner沒什麼時間思考疫情本身。“我認為我是地球上僅有的從情感和個人層面上都還沒意識到形勢有多可怕的人,”她還表示,“我的心思完全不在這上面,我可能要等形勢穩定下來之後,才能慢慢地了解整個情況。”

  董恩盛的家人在中國,還有好友在武漢,因此,他對疫情的關注度比一般人更高。他說:“我擔心他們所有人。”

  Gardner強調董恩盛只是一名一年級博士生。“我反複跟他說,這不是常態。”她說,“他需要准備好迎接非常乏味的二年級到五年級。”

          
】 【打 印】 

 相關新聞: