《數位之牆》資策會「Big Data資料處理-Spark實作」(高雄10/28)

	回到首頁
		個人．家庭．數位化 - 數位之牆

關於本站

1996(2)

產業動態	資策會「Big Data資料處理-Spark實作」(高雄10/28)

資策會高雄

本新聞稿發佈於2017/09/11，由發布之企業承擔內容之立場與責任，與本站無關

資策會高雄將於106年10月28日開辦「Big Data資料處理-Spark實作」。課程從Spark的手動安裝開始，讓學員建構出Spark的叢集環境，並體驗程式在叢集上運作的過程，及透過圖形介面監看多台叢集的運行。課程中將輔以Hadoop虛擬主機，讓學員實際體驗Spark整合Hadoop HDFS讀、寫的功能，幫助學員往後在使用或學習資料分析相關語言時，能與Spark順利接軌。

■ 發布／輪播新聞稿

新聞稿直達14萬電子報訂戶刊登新聞稿：按此

近年來各大企業如Google、Apple、Facebook等，皆已將機器學習應用在日常生活中，舉凡：自動駕駛、人臉辨識、語音辨識、各種預測、投資分析、醫學、工業等應用，機器學習儼然成為現在及未來市場的顯學。機器學習需要仰賴大量資料來完成，然而要處理大資料量就面臨到「Big Data的儲存」和「Big Data的運算」兩大難題。

在2014年的資料排序基準競賽（Sort Benchmark Competition）中，Databricks公司使用Spark，在207台的叢集中，以23分鐘完成 100 TB 的資料排序，刷新了2013年由Yahoo創下的記錄(在2,100台的叢集中使用MapReduce，花費了72分鐘完成)，這項成就也讓Spark一戰成名。
Spark是一個讓數據分析更加快速的叢集運算引擎，它使用了「記憶體內運算技術」（In-Memory Computing)，能在資料尚未寫入硬碟時即在記憶體內分析運算。Spark並非用來取代Hadoop，而是改進了Hadoop內MapReduce運算引擎，它支援了Hadoop所支援的儲存系統，包括HDFS、S3等。但Spark本身沒有提供儲存的功能，因此在使用上常見利用Spark叢集的運算加上Hadoop HDFS分散的儲存來處理Big Data進行分析，就可算是完美的結合。

有鑑於此，資策會特規劃了「Big Data資料處理-Spark實作」課程，本課程從Spark的手動安裝開始，讓學員建構出Spark的叢集環境，並體驗程式在叢集上運作的過程，及透過圖形介面監看多台叢集的運行。課程中將輔以Hadoop虛擬主機，讓學員實際體驗Spark整合Hadoop HDFS讀、寫的功能，幫助學員往後在使用或學習資料分析相關語言時，能與Spark順利接軌。

- 新聞稿有效日期，至2017/09/11為止

聯絡人　：羅小姐
聯絡電話：(07)969-9885 分機6637
電子郵件：san5823@iii.org.tw

上一篇：Epson攜手人氣網路圖文創作者Duncan掀客製化熱潮
 下一篇：2017 微軟物聯網國際博覽會攜手亞洲合作夥伴加乘工業物聯網