【領航觀點】【獨家披露:台積IT關鍵新能力1】為何台積電大舉招募SRE和DevOps?


去年3月底,台積電官網人才招募網頁上,突然發布了一類新職缺,要招募網站可靠性工程師(Site Reliability Engineering,簡稱SRE),到了去年11月,台積電對這類人才的招募活動不僅沒有滿足,甚至還進一步擴大,要開始招募起SRE團隊的管理幹部。

SRE是2016年開始崛起的新IT人才類型,當時Google把自家維運10億人規模的搜尋引擎或Email服務背後的那一套維運心法公開,打造成一套可以確保全球性服務高可靠度的作法,也就是SRE維運方法論,大力推廣,不少大型網路公司或科技公司也開始仿效導入,例如Netflix、LinkedIn,SRE成了維運全球性架構網路服務的指標性作法,甚至Netflix的SRE經驗更被許多企業視為學習的典範。

近幾年,各種產業都相繼展開數位轉型,許多大型企業開始提供跨國性網路服務,也開始擁抱SRE,來確保自家服務不中斷,例如2019年,金融業如新加坡星展銀行,或是零售巨頭美國Target,都開始成立自己的SRE團隊。


台積電是臺灣半導體業擁抱SRE的先行者

但是,SRE這個在國外科技圈火紅的新人才,在臺灣大多只在網路圈內流行,只有少數網路公司或雲端原生新創導入,直到2020年底、2021年初,才陸續出現幾家大型金控或大型製造業開始接觸SRE維運理念,展開嘗試,也開始出現這類人才的職缺需求。

到了2021年下半年,在臺灣的人力銀行網站上的SRE職缺數量竟然翻了一倍。後疫新常態暴增的數位通路需求,讓越來越多企業想要強化自己的網站維運能力,從網路設備商、儲存產品商、房仲集團、保險公司、證券商、物流、媒體、實體百貨、超市賣場到線上電商,都要招募SRE人才。

台積電正是2021年初,臺灣第一批招募SRE的高科技製造業者之一,甚至是半導體業者中,率先嘗試SRE的先行者之一。

可是,上述積極擁抱SRE的臺灣企業,大多是為了因應零接觸經濟需求而招募,而台積電並非是提供大規模B2C服務的企業,而是半導體製造代工服務業,為何台積電突然開始大舉招募SRE?

從台積SRE招募公告中,初步可以看出,與台積IT這兩年數位轉型的新戰略方向,大有關係。

台積早在兩年前,就開始大舉招募IT人力,2020年底時更打破例行性招募作法,首度舉辦線上徵才活動,要突破地域限制,想辦法吸引更多臺灣北、中、南部,甚至是海外的IT人才。

當時,台積電不只開出大量的AI職缺,例如資料科學家、ML軟體工程師、ML平臺工程師、ML領域執行經理等,來持續支援從2016年大力推動的生產製造智慧化戰略,另一方面,台積電當時還積極招募3大類IT人才,包括了雲端平臺架構師、基礎建設架構師與工程師和資安維運工程師。

去年,iThome獨家披露了台積電大舉招募AI和IT人才的關鍵布局,就是為了展開大規模數位轉型所需,尤其要招募的那3類IT職缺,都是基礎架構轉型所需的關鍵人力。

當時有位台積IT招募主管就直言,台積IT在2020年的三大工作重點,一是要運用各種基礎架構新服務,來支援台積電的數位轉型,二是要運用軟體定義技術,將傳統資料中心轉型為真正的私有雲架構,最後一點則是揭露台積電正持續投入新世代IT基礎架構的研發,包括如5G、IoT、AIOps等新興技術,來支援台積電未來的成長。

到了2021年,台積電絲毫沒有停下IT人才招募的腳步,甚至還更主動,深入更多場合、透過更多元的管道來招募。這些舉動反映出台積 IT急需更多新戰力的渴望。

但是,台積IT在2021年需要的新人才,和展開數位轉型前期,也就是和2020年時的需求,不盡相同。

在2021年下半年台積第二度IT大徵才活動中,進一步要擴大招募5大類人才,除了負責開發的軟體工程師、製造智慧化發展的AI/ML工程師,以及基礎架構工程師之外,2021年新出現的重點職缺,就是 SRE工程師和DevOps工程師,後兩者是2020年第一次IT大舉徵才中,沒有特別著墨的角色。


邁向雲端原生環境,開始積極招募DevOps和SRE

在2021年10月有次校園徵才活動中,台積電難得透露了IT人才需求改變的關鍵原因。台積電IT主管Jenny Hu指出:「台積要開始邁向雲端原生的環境,DevOps跟SRE是2021年開始的重點新職缺。」

她進一步解釋:「台積一方面建立自己的K8s,發展雲端原生架構,完善DevOps工具鏈,也開始推動轉型,將老舊系統轉移到雲原生架構上,也讓我們IT開發的產品轉型,透過這些工具鏈,將產品做得更好。」

從台積賦予DevOps和SRE職務的工作重點中,更詳細的點出了這兩類人才在台積電打造雲端原生架構中所扮演的關鍵角色。

這兩年,台積電一直持續招募大量軟體工程師,來負責內部軟體產品,也要瞄準未來全球營運的挑戰。但在2021年新增加的DevOps工程師的工作內容,不只也需要負責設計、開發和維運TSMC IT的軟體產品,更要使用雲原生技術,來開發全球營運製造的新平臺。

台積電從2020年就開始積極發展容器化,後來開始發展自己的K8s私有雲環境,也預告未來會將所有服務都會轉移到K8s上。台積DevOps被賦予的工作內容,就是要運用雲端環境開發自動化工具,來建置K8s上的流程,包括CI/CD流程、自動化測試流程、自動化部署流程等,也要搭配,如Prometheus、Kibana等雲端開源工具,來監控軟體產品品質和監控K8s平臺的資源,以確保產品維運的可靠性,還要負責待命任務。也就是說,台積電未來軟體產品所部署的K8s雲端原生環境上,各種流程自動化都是台積DevOps的任務,這些任務也正是國外科技巨頭打造全球網路服務時,為了支援全球性規模所需要的自動化管理能力。

而從台積SRE工作重點說明中可以看到,SRE要負責實現台積實現基礎架構程式碼化(Infrastructure as code,簡稱IaC),也要運用軟體方法來管理台積電的全球資料中心,包括基礎架構硬體設計、建設和維運。

而SRE的工作內容則包括了,從裸機、VM、容器到K8s私雲的部署與基礎架構維護工作,以及要負責定義和管理SLO、SLI和錯誤預算(Error Budgets),另外,還要負責定義監控機制和預警機制。當然,IT緊急應變是SRE角色的重要任務,他們得輪班待命處理緊急事件與事後檢討。

為了優化這些維運和管理工作,台積電的SRE也得具備各項雲端原生技術的開發能力,自己來發展相關的工具和所需的自動化流程。

從台積賦予這兩類角色的工作內容來看,DevOps和SRE是高度互補的角色,DevOps聚焦AP應用系統層級的大規模管理挑戰,而SRE則更進一步涵蓋到資料中心層級的全球維運和管理,但不論是SRE或是DevOps,都是為了雲端原生架構的大規模管理和維運,這正是台積用來因應全球化營運挑戰的IT新能力。


文章來源:iThome

服務專線:02-25622880 #3622 開小姐 ( 週一至週五,上午 10:30 ~ 12:00,下午 1:30 ~ 5:30 )