博客專欄

EEPW首頁 > 博客 > 獨家 | 展望未來:數(shù)據(jù)科學(xué)、數(shù)據(jù)工程及技術(shù)

獨家 | 展望未來:數(shù)據(jù)科學(xué)、數(shù)據(jù)工程及技術(shù)

發(fā)布人:數(shù)據(jù)派THU 時間:2021-04-07 來源:工程師 發(fā)布文章

2020年已經(jīng)成為歷史,我們想對過去這一年內(nèi)技術(shù)方面發(fā)生的變化進行一次復(fù)盤,并展望未來的發(fā)展方向。

無論您對初創(chuàng)企業(yè)及其IPO(首次公開募股)、技術(shù)創(chuàng)新感興趣,抑或是Amazon re:Invent大會的密切關(guān)注者,相信在過去一年里,您都看到了很多不斷突破自身界限的公司。

AWS的SageMaker Data Wrangler是2020年里筆者最喜歡的公告,其旨在加快機器學(xué)習(xí)和AI應(yīng)用程序的數(shù)據(jù)準(zhǔn)備工作。這似乎是朝著擁有更流暢的機器學(xué)習(xí)管道的方向邁出的一大步,并且有望幫助那些非技術(shù)驅(qū)動型公司更方便地應(yīng)用機器學(xué)習(xí)技術(shù)。

為此,我們邀請了來自技術(shù)界的各個領(lǐng)域的人們,談一談他們關(guān)于2021年展望的見解——無論是新興的初創(chuàng)公司、技術(shù)還是最佳實踐。

那就讓我們看看他們會說些什么吧!

Sam Cannon,F(xiàn)acebook數(shù)據(jù)科學(xué)家

我覺得自然語言處理(NLP)當(dāng)前正在以驚人的速度發(fā)展,這真是一件讓人喜憂摻半的事情。一旦搭建出了不錯的文本分類或詞向量聚類的管道,就會出現(xiàn)一個新模型,其性能往往比哪怕是昨天剛搭好的模型還要好。

話雖如此,我對NLP的發(fā)展方向仍然感到非常興奮,特別是在針對復(fù)雜NLP任務(wù)的開源解決方案方面。Hugging Face是我在這個領(lǐng)域最喜歡的公司之一,個人認為它是NLP領(lǐng)域最先進生產(chǎn)力的開源代表。Hugging Face通過使復(fù)雜的NLP模型和任務(wù)“民主化”,從而解決NLP領(lǐng)域長期存在的問題——即由于算力或?qū)I(yè)知識的缺乏,許多人通常無法獨自應(yīng)付復(fù)雜的NLP模型和任務(wù)。

舉例來說,他們已經(jīng)支持用戶僅通過最少的輸入來完成文本情感分析。在此基礎(chǔ)上,我認為2021年將迎來一系列可通過一行代碼就實現(xiàn)的預(yù)打包SOTA NLP模型。雖然無法預(yù)測2021年這個領(lǐng)域的具體成果,但我認為,至少開箱即用的NLP模型能讓更多的人從自然語言數(shù)據(jù)中得到洞察和見解—這就是2021年這個領(lǐng)域中我最期待的事了。

Catherine Tao,Data Standard數(shù)據(jù)科學(xué)家

我很期待看到云計算在2021年的創(chuàng)新。當(dāng)前階段,云是存儲公司數(shù)據(jù)的空間。這個領(lǐng)域存在一些挑戰(zhàn),例如可擴展性、效率、數(shù)據(jù)流等等。

我想看看云計算針對平衡技術(shù)企業(yè)所面臨的一些主要問題將會有哪些改善。許多公司都還在糾結(jié)如何將AI引入其業(yè)務(wù)中,這導(dǎo)致一些公司在技術(shù)行業(yè)中落后于其它公司。通過云計算技術(shù)創(chuàng)新,更多的公司都應(yīng)該能夠迎來人工智能落地,并以更高的生產(chǎn)率來部署項目或產(chǎn)品。

Riley Kinser,Terrain產(chǎn)品負責(zé)人

展望2021年(對于商業(yè)房地產(chǎn)來說,希望會是光明的一年?。?,我的主要重點是成為地理數(shù)據(jù)繪圖工具——無論是新的還是現(xiàn)行的——專家。我的主要目標(biāo)之一是將我們在Terrain的見解轉(zhuǎn)化為易于向終端用戶解釋和說明的地圖。

當(dāng)今行業(yè)中的許多示例都是使用ArcGIS來完成的,ArcGIS是一種比較老但成熟的地理數(shù)據(jù)繪圖工具。我相信可能會有更好的工具,這為我們的客戶提供一個在傳統(tǒng)經(jīng)典的基礎(chǔ)上了解新事物的機會。我感興趣的兩個工具是由Uber開發(fā)的開源項目:H3和kepler.gl。據(jù)我了解,H3的主要優(yōu)勢之一是能夠根據(jù)縮放比例將世界細分為大小不同的六邊形。

這解決了我們發(fā)現(xiàn)的早期問題之一,即不同的用戶對都市圈內(nèi)的社區(qū)、市場或城市的邊界劃分持有不同的觀點。這也使我們能夠更好地在全球范圍內(nèi)開發(fā)難以獲取邊界數(shù)據(jù)的地圖。

另一方面,kepler.gl很有趣,因為它相對容易為終端用戶或MVP(最小化可行產(chǎn)品)提供在線開發(fā)和托管支持。Uber開發(fā)了Kepler.gl,以允許用戶在內(nèi)部(技術(shù)和非技術(shù))快速開發(fā)可共享的地圖,以可視化地理空間數(shù)據(jù)中的想法。另一件有趣的事是,kepler.gl對具有時間序列性質(zhì)的地理數(shù)據(jù)提供便捷的可視化功能。我希望通過kepler.gl開發(fā)出我們的MVP(最小化可行產(chǎn)品),然后在我們開始收集用戶反饋時對H3進行探索。

Chris Zeoli,Base10 Partners負責(zé)人

盡管我對許多趨勢感到非常興奮,但電子商務(wù)(尤其是Shopify及其相關(guān)工具的興起)和遠程醫(yī)療是最能讓我感到激動的兩個領(lǐng)域。我之前寫過有關(guān)Shopify生態(tài)系統(tǒng)的文章,這家公司目前仍在創(chuàng)造新高——已為200多萬商家提供了超過1000億美元的GMV(成交總額)。

我對與Facebook / Instagram、TikTok、支付寶、Affirm和Pinterest等新的合作伙伴關(guān)系感到特別興奮,因為Shopify已成為消費者商務(wù)交易主要網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)。它的軟件以及第三方生態(tài)系統(tǒng)都正在經(jīng)歷著蓬勃發(fā)展。電子商務(wù)的傳統(tǒng)領(lǐng)域(服裝和時尚、快速消費品、保健產(chǎn)品等)持續(xù)增長,而食品/雜貨等較新的類別可以通過Shopify等平臺自動上線,這些都是很有趣的觀察。

遠程醫(yī)療和新的數(shù)字醫(yī)療體驗也讓我感到非常興奮。就目前的新冠疫情現(xiàn)狀而言,很明顯,醫(yī)療保健是經(jīng)濟發(fā)展中的頭等大事。該領(lǐng)域的總量占GDP的20%(并且還在增長),然而它幾乎沒有突破性成果,也沒有FAANG規(guī)模的公司。我可以想象,五年內(nèi)該領(lǐng)域至少會有一個主要參與者出現(xiàn)(同時也期望看到Apple,Google和Amazon繼續(xù)推動醫(yī)療保健發(fā)展)。2020年對于遠程醫(yī)療來說是重要的一年,Teladoc收購了Livongo并創(chuàng)建了數(shù)字醫(yī)療領(lǐng)域迄今最強大的品牌,其企業(yè)價值總和超過300億美元,而且超過$ 15億美元的ARR(年度經(jīng)常性收入)增長超過100%。

我很高興看到嶄新的數(shù)字醫(yī)療體驗浪潮,使人類最基本的照顧自己的需求得以被充分滿足。

Jun Kim,F(xiàn)acebook數(shù)據(jù)工程師

在即將到來的2021年里,最令我興奮的技術(shù)是期待已久的Apache Airflow 2.0版本。自2015年首次發(fā)布以來,Apache Airflow一直是數(shù)據(jù)工程領(lǐng)域中最受歡迎的工作流管理系統(tǒng)之一。

它的巨大成功可以歸因于以下事實:它允許將工作流編寫為代碼、簡單但有效的GUI以及在構(gòu)造數(shù)據(jù)管道方面具有通用的靈活性。借助新的2.0版本,每個人都喜歡的工作流管理系統(tǒng)將變得更加完善。Airflow 2.0將具有許多令人印象深刻的附加功能,包括完全受支持的綜合REST API、TaskFlow API和Task Groups。它還有不少其他改進,包括簡化的Kubernetes Executor、低延遲的調(diào)度程序以及更加直觀的GUI。

我迫不及待地想要嘗試改進后的新版本Airflow了。

Michael Mirandi,Saturn Cloud.io戰(zhàn)略主管

我很高興在2021年看到幾種技術(shù)趨勢,但其中最好的莫過于GPU計算在數(shù)據(jù)科學(xué)和機器學(xué)習(xí)領(lǐng)域中的日益普及。這種趨勢一開始是由性能方面的需求所驅(qū)動的,而開源項目RAPIDS將其變得更為易用。如果您不太熟悉RAPIDS,這里做一下簡單科普:用戶可以使用RAPIDS在NVIDIA硬件上執(zhí)行Python代碼(免責(zé)聲明:NVIDIA對該項目進行了贊助)。

該團隊于今年早些時候發(fā)布了行業(yè)標(biāo)準(zhǔn)的Big Data Analytics Benchmarks(大數(shù)據(jù)分析基準(zhǔn)),其表現(xiàn)(相比benchmark)要高出近20倍!另一個有趣的事實是,這些基準(zhǔn)測試不僅展示了GPU計算在完成數(shù)據(jù)科學(xué)工作方面的強大功能,而且還展示了其對傳統(tǒng)數(shù)據(jù)工程ETL工作的加速能力。這會使Python得到更為廣泛的使用嗎?我愿意****“會的”,特別是最近已有一批新的數(shù)據(jù)科學(xué)初創(chuàng)公司發(fā)布了分布式GPU計算平臺——這可是一種能夠以前所未有的速度啟動云中GPU集群的功能。

2021年及以后的技術(shù)展望

我們對2021年有諸多期待,無論是能夠通過一行代碼調(diào)用的預(yù)打包SOTA NLP模型、自然語言查詢,抑或是類似Airflow這樣對當(dāng)前框架所進行的改進。

大大小小的科技公司似乎都依然走在探索的路上,即使大家都處于“Zoom疲勞”之中(譯者注:新冠疫情使員工被迫通過Zoom進行遠程開會及辦公)。

希望2021年不僅能帶領(lǐng)我們獲得技術(shù)上的進步,而且也是能讓所有人的處境都有所改善的一年。

感謝您的閱讀,祝您新的一年里好運連連!

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞:

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉