一级黄色片免费播放|中国黄色视频播放片|日本三级a|可以直接考播黄片影视免费一级毛片

高級搜索

留言板

尊敬的讀者、作者、審稿人, 關(guān)于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復(fù)。謝謝您的支持!

姓名
郵箱
手機號碼
標(biāo)題
留言內(nèi)容
驗證碼

面向眾核密碼處理器的高效負載均衡技術(shù)

戴紫彬 尹安琪 曲彤洲 南龍梅

戴紫彬, 尹安琪, 曲彤洲, 南龍梅. 面向眾核密碼處理器的高效負載均衡技術(shù)[J]. 電子與信息學(xué)報, 2019, 41(2): 369-376. doi: 10.11999/JEIT180623
引用本文: 戴紫彬, 尹安琪, 曲彤洲, 南龍梅. 面向眾核密碼處理器的高效負載均衡技術(shù)[J]. 電子與信息學(xué)報, 2019, 41(2): 369-376. doi: 10.11999/JEIT180623
Zibin DAI, Anqi YIN, Tongzhou QU, Longmei NAN. Efficient Workload Balance Technology on Many-core Crypto Processor[J]. Journal of Electronics & Information Technology, 2019, 41(2): 369-376. doi: 10.11999/JEIT180623
Citation: Zibin DAI, Anqi YIN, Tongzhou QU, Longmei NAN. Efficient Workload Balance Technology on Many-core Crypto Processor[J]. Journal of Electronics & Information Technology, 2019, 41(2): 369-376. doi: 10.11999/JEIT180623

面向眾核密碼處理器的高效負載均衡技術(shù)

doi: 10.11999/JEIT180623
詳細信息
    作者簡介:

    戴紫彬:男,1966年生,教授,博士生導(dǎo)師,研究方向為可重構(gòu)計算與安全專用芯片設(shè)計

    尹安琪:女,1995年生,碩士生,研究方向為可重構(gòu)計算與信息安全

    曲彤洲:男,1994年生,碩士生,研究方向為可重構(gòu)計算與信息安全

    南龍梅:女,1981年生,講師,博士,研究方向為可重構(gòu)安全芯片設(shè)計

    通訊作者:

    尹安琪 yinaq0222@foxmail.com

  • 中圖分類號: TP338.6

Efficient Workload Balance Technology on Many-core Crypto Processor

  • 摘要:

    工作負載分配不均是制約眾核密碼平臺資源利用率提高的重要因素,動態(tài)負載分配可提高平臺資源利用率,但具有一定開銷;所以更高的負載均衡頻率并不一定帶來更高的負載均衡增益。因此,該文建立了關(guān)于負載均衡增益率與負載均衡頻率的數(shù)學(xué)模型?;谀P?,提出一種面向眾核密碼平臺的無沖突負載均衡策略和一種基于硬件作業(yè)隊列的“可擴展-可移植”負載均衡引擎——“簇間微網(wǎng)絡(luò)-簇內(nèi)環(huán)陣列”。實驗證明:在性能、延時功耗積、資源利用率和負載均衡度方面,該文設(shè)計的負載均衡引擎與基于“作業(yè)竊取”的軟件技術(shù)相比平均優(yōu)化約4.06倍、7.17倍、23.01%和2.15倍;與基于“作業(yè)竊取”的硬件技術(shù)相比約優(yōu)化1.75倍、2.45倍、10.2%、和1.41倍;與理想硬件技術(shù)相比,密碼算法吞吐率平均只降低了約5.67%(最低3%)。實驗結(jié)果表明該文技術(shù)具有良好的可擴展性和可移植性。

  • 圖  1  眾核密碼處理器架構(gòu)模型

    圖  2  簇內(nèi)作業(yè)隊列架構(gòu)

    圖  3  全局及局部均衡操作執(zhí)行流程

    圖  4  簇間負載均衡微網(wǎng)絡(luò)

    圖  5  性能對比圖

    圖  6  延時功耗積及資源利用率、負載均衡度對比圖

    表  1  無沖突負載均衡算法

    Require:${L_{{\rm{td}}}},{N_{{\rm{cl}}}},{L_{{\rm{dt}}}},{T_{{\rm{cp}}}},{\rm{Thpu}}{{\rm{t}}_{{\rm{SM}}}},{\rm{Thpu}}{{\rm{t}}_{{\rm{Nt}}}},{S_{\rm{c}}}$//簇間均衡操作集合
     1 Assign ${\rm{Balance\_c}} \leftarrow {\rm{True,}}{{{N}}_2} \leftarrow {\rm{Num}}[{S_{\rm{c}}}],{n_2} \leftarrow 0,{t_2} \leftarrow {T_{{\rm{op}}}}$
       ${t_3} \leftarrow ({L_{{\rm{td}}}} + {L_{{\rm{dt}}}})/{\rm{Thpu}}{{\rm{t}}_{{\rm{SM}}}},{t_4} \leftarrow ({L_{{\rm{td}}}} + {L_{{\rm{dt}}}})/{\rm{Thpu}}{{\rm{t}}_{Nt}}$
     2 while new ${\rm{job[}}k{\rm{][}}i{\rm{] = = True}}$ do//更新負載情況
     3 ${t_{\rm{1}}} \leftarrow {L_{{\rm{tdki}}}} \cdot {N_{{\rm{clki}}}} \cdot {L_{{\rm{dtki}}}};{\rm{Addc}}[k] \leftarrow {\rm{Addc}}[k] + {t_1};$
     4 end while
     5 while ${\rm{Balance\_c}} = = {\rm{True}}$ do//簇間負載均衡
     6 for $k \leftarrow 0$ to ${N_2}$ do
     7 for $w \leftarrow 0$ to ${N_2}$ do
     8 if $w \ne k$ then
     9 if ${\rm{Thpu}}{{\rm{t}}_{{\rm{SM}}}} \ge {\rm{Thpu}}{{\rm{t}}_{Nt}}$ then
     10 if ${\rm{Addp[}}k{\rm{] - Addp[}}w{\rm{] - }}{t_{\rm{1}}}{\rm{ > }}{t_{2}}{\rm{ + }}{t_{\rm{4}}}$ then//式(13)
     11 ${\rm{Balancep\_Request[}}w{\rm{][}}k{]} \leftarrow {\rm{True;}}$
     12 ${\rm{Balancec\_Request[}}w{]} = {\rm{Balancec\_Request[}}w{]} + 1;$
     13 end if
     14 else then
     15 if ${\rm{Addp[}}k{\rm{] - Addp[}}w{\rm{] - }}{t_{\rm{1}}} > {t_2} + {t_3}$ then//式(13)
     16 ${\rm{Balancep\_Request[}}w{\rm{][}}k{]} \leftarrow {\rm{True;}}$
     17 ${\rm{Balancec\_Request[}}w{]} = {\rm{Balancec\_Request[}}w{]} + 1;$
     18 end if
     19 end else
     20 end for
     21 if ${\rm{Balancec\_Request[}}w{]} > 1$ then
     22 ${\rm{choose }}\ p{\rm{[}}{{\rm{n}}_{2}}{\rm{];}}{n_2} \leftarrow {(}{n_{2}}{\rm{ + 1)mol}}{N_{2}};$
     23 end if
     24 end for
     25 end while
    下載: 導(dǎo)出CSV

    表  2  仿真參數(shù)

    參數(shù)
    核心數(shù)目4~64
    本地緩存大小8 kB
    共享緩存大小16 MB
    簇內(nèi)互連方式二向環(huán)
    簇間互連方式2D-mesh
    共享訪問延時/本地訪問延時3
    下載: 導(dǎo)出CSV

    表  3  測試基準(zhǔn)說明

    測試基準(zhǔn)算法分類算法特征
    (bit)
    作業(yè)數(shù)目平均作業(yè)
    大小(kB)
    測試基準(zhǔn)算法分類算法特征
    (bit)
    作業(yè)數(shù)目平均作業(yè)
    大小(kB)
    備注
    DES分組64102454.4A5序列1102441.1算法特征表示分組/雜湊算法的處理位寬或者序列算法的輸出位寬
    AES分組128102446.3ZUC序列32102450.4
    SM4分組512102432.2RC4序列8102447.3
    SHA256雜湊512102444.6RSA公鑰102440.3
    SM3雜湊512102438.8SM2公鑰102422.8
    SHA-1雜湊512102433.2
    下載: 導(dǎo)出CSV
  • KIM C and HUH J. Exploring the design space of fair scheduling supports for asymmetric multicore systems[J]. IEEE Transactions on Computers, 2018, 67(8): 1136–1152. doi: 10.1109/TC.2018.2796077
    KIM K W, CHO Y, EO J, et al. System-wide time versus density tradeoff in real-time multicore fluid scheduling[J]. IEEE Transactions on Computers, 2018, 67(7): 1007–1022. doi: 10.1109/TC.2018.2793919
    LEE J, NICOPOULOS C, LEE H G, et al. IsoNet: Hardware-based job queue management for many core architectures[J]. IEEE Transactions on Very Large Scale Integration Systems, 2013, 21(6): 1080–1093. doi: 10.1109/TVLSI.2012.2202699
    KUMAR S, HUGHES C J and NGUYEN A. Carbon: Architectural support for fine-grained parallelism on chip multiprocessors[C]. International Symposium on Computer Architecture, California, USA, 2007: 162–173.
    CHEN J, JUANG P, KO K, et al. Hardware-modulated parallelism in chip multiprocessors[J]. ACM Sigarch Computer Architecture News, 2005, 33(4): 54–63. doi: 10.1145/1105734.1105742
    LEE J, NICOPOULOS C, LEE Y, et al. Hardware-based job queue management for manycore architectures and OpenMP environments[J]. IEEE International Parallel & Distributed Processing Symposium, 2011, 21(6): 407–418. doi: 10.1109/IPDPS.2011.47
    劉宗斌, 馬原, 荊繼武, 等. SM3哈希算法的硬件實現(xiàn)與研究[J]. 信息網(wǎng)絡(luò)安全, 2011, 59(9): 191–193. doi: 10.3969/j.issn.1671-1122.2011.09.059

    LIU Zongbin, MA Yuan, JING Jiwu, et al. Implementation of SM3 hash function on FPGA[J]. Information Network Security, 2011, 59(9): 191–193. doi: 10.3969/j.issn.1671-1122.2011.09.059
    徐金甫, 楊宇航. SM4算法在粗粒度陣列平臺的并行化映射[J]. 電子技術(shù)應(yīng)用, 2017, 43(4): 39–42.

    XU Jinfu and YANG Yuhang. Parallel mapping of SM4 algorithm on coarse-grained array platform[J]. Electronic Technology Application, 2017, 43(4): 39–42.
    DUBEY P. Recognition, mining and synthesis moves computers to the era of tera[J]. Technology@Intel Magazine, 2005, 9(2): 1–10.
    RATTNER J. Cool codes for hot chips: A quantitative basis for multi-core design[C]. Hot Chips 18 Symposium IEEE, Cupertino, USA, 2016: 1–28.
    AN H, TAURA K, and SPOTTER D. A tool for spotting scheduler-caused delays in task parallel runtime systems[C]. IEEE International Conference on CLUSTER Computing, Hawaii, USA, 2017: 114–125.
    KWOK Y K and AHMAD I. Static scheduling algorithms for allocating directed task graphs to multiprocessors[J]. ACM Computing Surveys, 1999, 31(4): 406–471. doi: 10.1145/344588.344618
    TITHI J J, MATANI D, MENGHANI G, et al. Avoiding locks and atomic instructions in shared-memory parallel BFS using optimistic parallelization[C]. Parallel and Distributed Processing Symposium Workshops & Phd Forum IEEE, Cambridge, UK, 2013: 1628–1637.
    MOON S W, REXFORD J, and SHIN K G. Scalable hardware priority queue architectures for high-speed packet switches[J]. IEEE Transactions on Computers, 2000, 49(11): 1215–1227. doi: 10.1109/RTTAS.1997.601359
    CHEN Quan, ZHENG Long, and GUO Minyi. Adaptive Demand-aware Work-stealing in Multi-programmed Multi-core Architectures[J]. Concurrency and Computation: practice & Experience, 2016, 28(2): 455–471. doi: 10.1002.cpe.3619
  • 加載中
圖(6) / 表(3)
計量
  • 文章訪問數(shù):  1568
  • HTML全文瀏覽量:  525
  • PDF下載量:  60
  • 被引次數(shù): 0
出版歷程
  • 收稿日期:  2018-06-26
  • 修回日期:  2018-11-27
  • 網(wǎng)絡(luò)出版日期:  2018-12-03
  • 刊出日期:  2019-02-01

目錄

    /

    返回文章
    返回