截止2020年3月底,根據(jù)GitHub開發(fā)者關系總監(jiān)Martin Woodward的一篇博客1,在開放開源協(xié)作平臺GitHub上已經觀察到超過6000余位貢獻者參與和支持了超過3000多個COVID-19響應的免費及開源項目,這些項目已經被超過14萬獨立用戶瀏覽超過200萬次。中國、法國、德國、印度、意大利、日本、美國、韓國、英國等國家和地區(qū)的開發(fā)者、專家和學者,積極參與了GitHub上新型冠狀病毒肺炎疫情圖、數(shù)據(jù)集、API、分析、應用開發(fā)等開源項目?梢哉f,當各國還處于各自物理隔離狀態(tài)時,人類已經在開源世界里團結一致。
作為全球最大的開放開源軟件支持者之一,微軟也積極參與了開源世界聯(lián)合應對新冠肺炎疫情的努力,包括:開放COVID-19科研文章數(shù)據(jù)集、基于Azure Maps的COVID-19疫情圖開源代碼、向GitHub上的COVID-19項目捐贈計算小時等。毫無疑問,一場新冠肺炎疫情將永久性改變人類社會的協(xié)作方式:如果顯性的表現(xiàn)是普通大眾在線溝通、工作與生活,那么隱性的表現(xiàn)就是全球技術精英們通過開源平臺與社區(qū)的協(xié)作。
通過開放開源平臺展開全球科研協(xié)作
本次新冠肺炎疫情倒逼了全球科學界和產業(yè)界的新協(xié)作方式,微軟、Amazon、Facebook、約翰斯·霍普金斯大學等多家醫(yī)學界和技術界公司和組織都在開放開源平臺上迅速協(xié)作,把新冠肺炎疫情相關的研究、代碼、數(shù)據(jù)、云服務等推向全球社會。
在所有COVID-19開源項目中,來自約翰斯·霍普金斯大學的開放COVID-19數(shù)據(jù)集是最受矚目的項目之一。該大學被全球的流行病學專家、媒體以及統(tǒng)計工作者等視為COVID-19疫情爆發(fā)中的權威數(shù)據(jù)來源。該數(shù)據(jù)集也被用于一個交互式可視化面板,實時追蹤COVID-19確診病例。約翰斯·霍普金斯大學的系統(tǒng)科學與工程中心開發(fā)了這個用戶友好的可視化面板,以供全球的研究學者、公共健康管理部門以及大眾了解和追蹤全球疫情的進展。
微軟Azure Maps團隊在GitHub上建立了一個基于Azure Maps的自由面板項目2,讓健康醫(yī)療機構以及其它用戶能夠復用微軟提供的代碼以建立適合自己的可視化面板,可選擇不同的公共數(shù)據(jù)集以了解本地醫(yī)院、床位數(shù)量、聯(lián)系人等信息。該項目可為任何特定地理區(qū)域進行定制,同時還可增強本地數(shù)據(jù)與信息,以獲得地理空間相關洞察。該自由面板與約翰斯·霍普金斯大學的開源COVID-19面板相連,讓用戶能夠獲得全球疫情進展的時空數(shù)據(jù)。
除了數(shù)據(jù)集外,關于COVID-19的流行病學研究以及尋找疫苗或治療藥物的科學工作也在開源平臺上進行。Folding@home是GitHub上一個分布式計算項目,該項目使用志愿者的個人電腦進行計算藥物設計等研究工作。該項目啟動了一個專注于COVID-19的方向,致力于尋找潛在可用于藥物治療的蛋白質靶點。GitHub已經向該項目捐贈了6萬計算小時/每日,以幫助更快找到COVID-19的治療藥物或方法。
微軟研究院、艾倫人工智能研究所、美國國家衛(wèi)生研究院(NIH)的國家醫(yī)學圖書館、白宮科學技術辦公室(OSTP)以及其它機構合作了COVID-19開放研究數(shù)據(jù)集并向公眾開放3。截止2020年4月初,該數(shù)據(jù)集已經收錄了超過了47,000篇COVID-19學術論文。基于這一數(shù)據(jù)集,Kaggle舉辦了“COVID-19開放研究數(shù)據(jù)集挑戰(zhàn)賽”,以激勵全球的AI開發(fā)者從這些研究論文中挖掘COVID-19相關的洞察。
Martin Woodward表示,在GitHub上與COVID-19相關的項目和貢獻者與日俱增。這從一個側面說明了全球技術精英們,正在類似GitHub這樣的開放開源平臺上跨界合作,用開放開源技術展開快速協(xié)作,共同克服類似COVID-19這樣全人類的共同挑戰(zhàn)。
開放開源已經嵌入全球人工智能合作
在本次新冠肺炎疫情之前,開放開源平臺就已經在全球重大合作課題上發(fā)揮了重要作用,最顯著的成果之一就是人工智能。微軟、Amazon、Google等人工智能公司和技術廠商已經推出了各種開源的人工智能軟件、代碼、數(shù)據(jù)、API等。過去一年間,GitHub上最火熱的項目就是人工智能和機器學習。
在過去的2019年,Python成為僅次于JavaScript的第二大最受歡迎開發(fā)語言4。根據(jù)GitHub 2019年度報告,在2015年到2018年,Python都排在Java之后名列第三大最受歡迎開發(fā)語言,而2019年則終于上升到第二的位置。眾所周知,Python是當下最火的機器學習編程語言。因此,在Python之后,數(shù)據(jù)科學也成為了GitHub上最火的領域之一。
此前,GitHub被視為軟件開發(fā)者之家,但隨著全球代碼的演進,基于Python的數(shù)據(jù)科學軟件包也開始在GitHub上聚集。這些基于Python的數(shù)據(jù)科學開源軟件,不僅降低了數(shù)據(jù)科學工作者的門檻,也讓數(shù)據(jù)科學對商業(yè)和科研同等重要。而隨著數(shù)據(jù)科學開源社區(qū)在GitHub上的聚集,越來越多GitHub軟件倉庫出現(xiàn)了“深度學習”、“自然語言處理”、“機器學習”等主題。
而在這些現(xiàn)象背后,是全球人工智能開發(fā)者之間更深層的互連協(xié)作。根據(jù)GitHub 2019年度報告,過去一年在GitHub上共創(chuàng)建了4400萬個代碼倉庫,從將機器學習用于藥物研發(fā)到深度學習學術論文再到各種類型的機器人,GitHub上如雨后春筍般涌現(xiàn)了許多AI方面激動人心的開源項目。而GitHub上每個代碼倉庫的依賴包高達200個,每個開源項目背后都是數(shù)百個其它開源項目所提供的支撐。換句話說,全球人工智能與軟件界已經在開放開源平臺深刻互聯(lián),這已經是無法改變的事實。
在人工智能的開放開源領域,微軟是最堅定的支持者與參與者之一。早在2015年,微軟就開源了著名的CNTK微軟認知計算工具軟件包5,CNTK允許開發(fā)者輕松實現(xiàn)和結合feed forward-DNN、CNN、RNN、LSTM等流行的深度學習框架,并可在多GPU和服務器之間實現(xiàn)大規(guī)模分布式并行計算。微軟期望通過CNTK這樣的開源人工智能軟件和開源工作模式,加速全球創(chuàng)新創(chuàng)意的流動、分享與共享。
全球企業(yè)擁抱開放開源的新時代
從人工智能全球大協(xié)作到本次新冠肺炎疫情的加速協(xié)作創(chuàng)新,開放開源模式在全球商業(yè)和社會中的作用越來越顯著。軟件吞噬世界、開源吞噬軟件,這已經是全球技術界的共識,也正在企業(yè)家中得到廣泛認同。
GitHub全球銷售SVP Erica Anderson在2019年9月發(fā)表文章稱6,全球越來越多的企業(yè)正在GitHub上投資開源軟件以加速大規(guī)模的創(chuàng)新。對比Red Hat的2019和2020全球企業(yè)開源軟件狀況調研結果7,8,認為開源軟件“非常重要”和“極端重要”的企業(yè)從2019年69%上升到2020年的75%,計劃在未來增加使用開源軟件的企業(yè)從2019年的59%猛升至2020年的77%。而無論是企業(yè)級商用開源軟件還是開源社區(qū)版開源軟件,都將在未來兩年處于上升態(tài)勢。
Erica Anderson總結了全球企業(yè)和組織加速投資開源軟件的五大原因:
- 首先是加速開發(fā)。沒有一個企業(yè)組織的開發(fā)能力可以媲美整個開源社區(qū),開源項目的維護者和貢獻者可以跨國界、時區(qū)、語言等進行不間斷協(xié)作。通過與開源社區(qū)互動,企業(yè)組織可以立刻就把全球軟件社區(qū)納入自己的開發(fā)隊伍。
- 其次是更安全的代碼。這雖然有些違反直覺,但實際上更多人參與,反而讓代碼的安全度更高。這也就是說,有更多雙眼睛掃描和盯住代碼中的潛在bug,可以在代碼正式發(fā)布前就提前消除隱患。GitHub還提供了諸如Maintainer Security Advisory、Security Vulnerability Alerts等軟件開發(fā)安全工具,讓外部開發(fā)者和內部開發(fā)團隊都能夠向企業(yè)級開源項目報告潛在安全漏洞和隱患。
- 第三是改善人才招聘與留存。一方面,開源社區(qū)為開源軟件提供了源源不斷的開發(fā)者和程序員;另一方面,如果企業(yè)在開源社區(qū)有影響力,那么就有助于吸引和留存高級軟件人才。不少企業(yè)內的開發(fā)者和工程師,都樂意付出額外時間維護GitHub上的個人成就,以獲得企業(yè)內部和開源社區(qū)的認可。
- 第四是獲得更好的開發(fā)工具。根據(jù)Synopsys統(tǒng)計9,99%新開發(fā)的應用軟件都包含有開源代碼,很多企業(yè)和組織其實早就已經在使用開源工具和在其代碼庫中采用開源代碼。雖然在這些企業(yè)中有些是在被動的使用開源工具或代碼,如果這些企業(yè)改變策略,主動參與開源社區(qū)的話,就能帶來更為顯著的影響力:影響開源項目的走向,以更適應公司基礎設施;為所有開發(fā)團隊提供更好的開發(fā)環(huán)境。
- 第五是更高的開發(fā)者生產力以及更低成本。開源代碼已經成為今天軟件的基礎構成部分,開發(fā)者往往可以通過簡單免費的搜索就獲得高質量的可復用代碼。與其不斷“重復發(fā)明新的輪子”,開源讓企業(yè)可以更專注于自身獨有的知識產權和產品差異化方向上,這就意味著更短的產品上市時間以及更低的成本。
在過去的一年,全球開源社區(qū)熱情高漲。在GitHub上的4400萬開發(fā)者中,有超過80%來自美國以外的地區(qū);上千萬的開發(fā)者在去年才剛剛加入GitHub;2019年創(chuàng)建了自己第一個GitHub代碼倉庫的開發(fā)者比2018年多了44%;130萬人在去年首次在開源社區(qū)做出貢獻;GitHub上有約300萬企業(yè)賬戶,代表了全球企業(yè)、非營利性組織、各種開源項目等的集合努力;GitHub Enterprise Cloud的用戶來自超過70個國家,其中全球財富50強的的35家已經在去年向開源社區(qū)做出貢獻。
總結:后疫情時代的人類社會,開放開源將成為新的重大合作策略。這是因為在充滿不確定性的社會經濟環(huán)境中,開放開源才是最高效的應對不確定的方式;陂_放開源的共享創(chuàng)新方式,將帶來后疫情時代人類社會的新繁榮。
首屆微軟在線技術峰會將于4月17-4月18日舉辦,GitHub全球產品技術生態(tài)總經理Michael Francisco將進行主題演講,同時微軟的專家也會帶來關于開源的分享,點擊閱讀原文進入活動官網或掃描下方圖片二維碼即刻報名:
參考文獻:
1.Open collaboration on COVID-19,https://github.blog/2020-03-23-open-collaboration-on-covid-19/
2.Azure Maps Covid-19 Open Source Project for Healthcare Agencies,https://techcommunity.microsoft.com/t5/azure-maps/azure-maps-covid-19-open-source-project-for-healthcare-agencies/m-p/1230024#
3.COVID-19 Open Research Dataset (CORD-19),https://pages.semanticscholar.org/coronavirus-research
4. GitHub:The State of the Octoverse 2019,https://github.blog/2019-11-06-the-state-of-the-octoverse-2019/
5.CNTK,https://github.com/microsoft/CNTK
6.Five reasons why organizations should invest in open source,https://www.linkedin.com/pulse/five-reasons-why-organizations-should-invest-open-source-anderson/
7.The State of Enterprise Open Source 2020,https://www.redhat.com/cms/managed-files/rh-enterprise-open-source-report-detail-f21756-202002-en.pdf
8.The State of Enterprise Open Source 2019,https://www.redhat.com/en/blog/survey-says-enterprise-open-source-inventing-future-software
9.Synopsys: 2019 OPEN SOURCE SECURITY AND RISK ANALYSIS,https://www.synopsys.com/content/dam/synopsys/sig-assets/reports/rep-ossra-19.pdf