Caltech CS184 Winter2005 -- DeHon 1 CS184a: Computer Architecture (Structure and Organization) Day 13: February 4, 2005 Interconnect 1: Requirements.

Slides:

Advertisements

Similar presentations

CALTECH CS137 Fall DeHon 1 CS137: Electronic Design Automation Day 19: November 21, 2005 Scheduling Introduction.

Advertisements

EDA (CS286.5b) Day 10 Scheduling (Intro Branch-and-Bound)

Penn ESE534 Spring DeHon 1 ESE534: Computer Organization Day 14: March 19, 2014 Compute 2: Cascades, ALUs, PLAs.

Caltech CS184a Fall DeHon1 CS184a: Computer Architecture (Structures and Organization) Day6: October 11, 2000 Instruction Taxonomy VLSI Scaling.

Balancing Interconnect and Computation in a Reconfigurable Array Dr. André DeHon BRASS Project University of California at Berkeley Why you don’t really.

Caltech CS184a Fall DeHon1 CS184a: Computer Architecture (Structures and Organization) Day17: November 20, 2000 Time Multiplexing.

Penn ESE535 Spring DeHon 1 ESE535: Electronic Design Automation Day 11: March 4, 2008 Placement (Intro, Constructive)

Penn ESE535 Spring DeHon 1 ESE535: Electronic Design Automation Day 17: April 2, 2008 Scheduling Introduction.

Penn ESE Spring DeHon 1 ESE (ESE534): Computer Organization Day 21: April 2, 2007 Time Multiplexing.

Penn ESE Spring DeHon 1 ESE (ESE534): Computer Organization Day 15: March 12, 2007 Interconnect 3: Richness.

CS294-6 Reconfigurable Computing Day 8 September 17, 1998 Interconnect Requirements.

Caltech CS184a Fall DeHon1 CS184a: Computer Architecture (Structures and Organization) Day10: October 25, 2000 Computing Elements 2: Cascades, ALUs,

Caltech CS184a Fall DeHon1 CS184a: Computer Architecture (Structures and Organization) Day8: October 18, 2000 Computing Elements 1: LUTs.

DeHon March 2001 Rent’s Rule Based Switching Requirements Prof. André DeHon California Institute of Technology.

CS294-6 Reconfigurable Computing Day 10 September 24, 1998 Interconnect Richness.

Penn ESE Fall DeHon 1 ESE (ESE534): Computer Organization Day 19: March 26, 2007 Retime 1: Transformations.

Penn ESE Spring DeHon 1 ESE (ESE534): Computer Organization Day 13: February 26, 2007 Interconnect 1: Requirements.

Caltech CS184a Fall DeHon1 CS184a: Computer Architecture (Structures and Organization) Day4: October 4, 2000 Memories, ALUs, and Virtualization.

Penn ESE Spring DeHon 1 ESE (ESE534): Computer Organization Day 11: February 14, 2007 Compute 1: LUTs.

JR.S00 1 Lecture 13: (Re)configurable Computing Prof. Jan Rabaey Computer Science 252, Spring 2000 The major contributions of Andre Dehon to this slide.

EDA (CS286.5b) Day 7 Placement (Simulated Annealing) Assignment #1 due Friday.

Penn ESE Spring DeHon 1 ESE (ESE534): Computer Organization Day 16: March 14, 2007 Interconnect 4: Switching.

Penn ESE Spring DeHon 1 FUTURE Timing seemed good However, only student to give feedback marked confusing (2 of 5 on clarity) and too fast.

Penn ESE Spring DeHon 1 ESE (ESE534): Computer Organization Day 14: February 28, 2007 Interconnect 2: Wiring Requirements and Implications.

Penn ESE Spring DeHon 1 ESE (ESE534): Computer Organization Day 5: January 24, 2007 ALUs, Virtualization…

CprE / ComS 583 Reconfigurable Computing Prof. Joseph Zambreno Department of Electrical and Computer Engineering Iowa State University Lecture #3 – FPGA.

CSET 4650 Field Programmable Logic Devices

EGRE 427 Advanced Digital Design Figures from Application-Specific Integrated Circuits, Michael John Sebastian Smith, Addison Wesley, 1997 Chapter 7 Programmable.

Caltech CS184 Winter DeHon 1 CS184a: Computer Architecture (Structure and Organization) Day 15: February 12, 2003 Interconnect 5: Meshes.

ESE Spring DeHon 1 ESE534: Computer Organization Day 19: April 7, 2014 Interconnect 5: Meshes.

Penn ESE535 Spring DeHon 1 ESE535: Electronic Design Automation Day 2: January 21, 2015 Heterogeneous Multicontext Computing Array Work Preclass.

CBSSS 2002: DeHon Costs André DeHon Wednesday, June 19, 2002.

Caltech CS184a Fall DeHon1 CS184a: Computer Architecture (Structures and Organization) Day11: October 30, 2000 Interconnect Requirements.

Caltech CS184 Winter DeHon 1 CS184a: Computer Architecture (Structure and Organization) Day 7: January 24, 2003 Instruction Space.

Caltech CS184 Winter DeHon 1 CS184a: Computer Architecture (Structure and Organization) Day 18: February 18, 2005 Interconnect 6: MoT.

Caltech CS184b Winter DeHon 1 CS184b: Computer Architecture [Single Threaded Architecture: abstractions, quantification, and optimizations] Day9:

Caltech CS184 Winter DeHon 1 CS184a: Computer Architecture (Structure and Organization) Day 14: February 10, 2003 Interconnect 4: Switching.

CALTECH CS137 Winter DeHon CS137: Electronic Design Automation Day 13: February 20, 2002 Routing 1.

CBSSS 2002: DeHon Interconnect André DeHon Thursday, June 20, 2002.

Caltech CS184 Winter DeHon 1 CS184a: Computer Architecture (Structure and Organization) Day 16: February 14, 2003 Interconnect 6: MoT.

Penn ESE534 Spring DeHon 1 ESE534: Computer Organization Day 18: April 2, 2014 Interconnect 4: Switching.

Caltech CS184 Winter DeHon 1 CS184a: Computer Architecture (Structure and Organization) Day 16: February 14, 2005 Interconnect 4: Switching.

Penn ESE534 Spring DeHon 1 ESE534: Computer Organization Day 5: February 1, 2010 Memories.

Caltech CS184 Winter DeHon 1 CS184a: Computer Architecture (Structure and Organization) Day 13: February 6, 2003 Interconnect 3: Richness.

Caltech CS184 Winter DeHon 1 CS184a: Computer Architecture (Structure and Organization) Day 6: January 22, 2003 VLSI Scaling.

Penn ESE534 Spring DeHon 1 ESE534 Computer Organization Day 9: February 13, 2012 Interconnect Introduction.

Caltech CS184 Winter DeHon CS184a: Computer Architecture (Structure and Organization) Day 4: January 15, 2003 Memories, ALUs, Virtualization.

Caltech CS184 Winter DeHon 1 CS184a: Computer Architecture (Structure and Organization) Day 11: January 31, 2005 Compute 1: LUTs.

ESE Spring DeHon 1 ESE534: Computer Organization Day 18: March 26, 2012 Interconnect 5: Meshes (and MoT)

Caltech CS184a Fall DeHon1 CS184a: Computer Architecture (Structures and Organization) Day14: November 10, 2000 Switching.

Caltech CS184 Winter DeHon 1 CS184a: Computer Architecture (Structure and Organization) Day 12: February 5, 2003 Interconnect 2: Wiring Requirements.

Penn ESE534 Spring DeHon 1 ESE534: Computer Organization Day 17: March 29, 2010 Interconnect 2: Wiring Requirements and Implications.

Penn ESE534 Spring DeHon 1 ESE534: Computer Organization Day 22: April 16, 2014 Time Multiplexing.

CALTECH CS137 Fall DeHon 1 CS137: Electronic Design Automation Day 21: November 28, 2005 Routing 1.

Caltech CS184 Winter DeHon 1 CS184a: Computer Architecture (Structure and Organization) Day 10: January 28, 2005 Empirical Comparisons.

Caltech CS184a Fall DeHon1 CS184a: Computer Architecture (Structures and Organization) Day12: November 1, 2000 Interconnect Requirements and Richness.

ESE534: Computer Organization

ESE532: System-on-a-Chip Architecture

ESE532: System-on-a-Chip Architecture

ESE534: Computer Organization

ESE534 Computer Organization

CS184a: Computer Architecture (Structure and Organization)

CS137: Electronic Design Automation

ESE534: Computer Organization

CS184a: Computer Architecture (Structures and Organization)

ESE534: Computer Organization

CprE / ComS 583 Reconfigurable Computing

ESE534: Computer Organization

CS184a: Computer Architecture (Structure and Organization)

ESE532: System-on-a-Chip Architecture

Presentation transcript:

Caltech CS184 Winter DeHon 1 CS184a: Computer Architecture (Structure and Organization) Day 13: February 4, 2005 Interconnect 1: Requirements

Caltech CS184 Winter DeHon 2 Last Time Saw various compute blocks To exploit structure in typical designs we need programmable interconnect All reasonable, scalable structures: –small to moderate sized logic blocks –connected via programmable interconnect been saying delay across programmable interconnect is a big factor

Caltech CS184 Winter DeHon 3 Today Interconnect Design Space Dominance of Interconnect Interconnect Delay Simple things –and why they don’t work

Caltech CS184 Winter DeHon 4 Dominant Area

Caltech CS184 Winter DeHon 5 Dominant Time

Caltech CS184 Winter DeHon 6 Dominant Time

Caltech CS184 Winter DeHon 7 Dominant Power XC4003A data from Eric Kusse (UCB MS 1997)

Caltech CS184 Winter DeHon 8 For Spatial Architectures Interconnect dominant –area –power –time …so need to understand in order to optimize architectures

Caltech CS184 Winter DeHon 9 Interconnect Problem –Thousands of independent (bit) operators producing results true of FPGAs today …true for *LIW, multi-uP, etc. in future –Each taking as inputs the results of other (bit) processing elements –Interconnect is late bound don’t know until after fabrication

Caltech CS184 Winter DeHon 10 Design Issues Flexibility -- route “anything” –(w/in reason?) Area -- wires, switches Delay -- switches in path, stubs, wire length Power -- switch, wire capacitance Routability -- computational difficulty finding routes

Caltech CS184 Winter DeHon 11 Delay

Caltech CS184 Winter DeHon 12 Wiring Delay Delay on wire of length L seg : T seg = T gate RC C = L seg  C sq R = L seg  R sq T seg = T gate C sq  R sq  L seg 2

Caltech CS184 Winter DeHon 13 Wire Numbers R sq = 0.17  /sq. –from ITRS:Interconnect Conductor effective resistance A/R (aspect ratio) C sq = 7  F/sq. R sq  C sq  s T gate = 30 ps Chip: 7mm side, 70nm sq. (45nm process) –10 5 squares across chip

Caltech CS184 Winter DeHon 14 Wiring Delay Wire Delay T seg = T gate C sq  R sq  L seg 2 T seg = 30ps s  T seg = 30ps + 4ns  4ns

Caltech CS184 Winter DeHon 15 Buffer Wire Buffer every L seg T cross = (L cross /L seg ) T seg T cross = (L cross /L seg ) ( T gate C sq  R sq  L seg 2 ) = (L cross ) ( T gate /L seg C sq  R sq  L seg )

Caltech CS184 Winter DeHon 16 Opt. Buffer Wire T cross = (L cross ) ( T gate /L seg C sq  R sq  L seg ) Minimize:  Take d(T cross )/d(L seg ) = 0  0 = (L cross ) (- T gate /L seg C sq  R sq )  T gate = 0.4 C sq  R sq L seg 2

Caltech CS184 Winter DeHon 17 Optimization Point Optimized: T cross = (L cross /L seg ) ( T gate C sq  R sq  L seg 2 ) T gate = 0.4 C sq  R sq L seg 2  Says: equalize gate and wire delay

Caltech CS184 Winter DeHon 18 Optimal Segment Length T gate = 0.4 C sq  R sq L seg 2 L seg = Sqrt( T gate / 0.4 C sq  R sq ) L seg = Sqrt( s/ s) L seg  Sqrt(10 8 )  10 4 sq.

Caltech CS184 Winter DeHon 19 Buffered Delay Chip: 7mm side, 70nm sq. (45nm process) –10 5 squares across chip L seg  10 4 sq. 10 segments: –Each of delay 2 T gate –T cross = 20  30ps = 600ps – Compare: 4ns

Caltech CS184 Winter DeHon 20 Unbuffered Switch R~600  (width ~20) –About 3600 squares? [0.17  /sq. ] C~5  F –About 100 squares? Not lumped ~2x worse Together contribute roughly 1200 squares Maybe 8 per rebuffer? –…assumes large switch and no wire…

Caltech CS184 Winter DeHon 21 Buffered Switch Pay T gate at each switch Slows down relative to –Optimally buffered wire –Unbuffered switch …when placed too often

Caltech CS184 Winter DeHon 22 Stub Capacitance Every untaken switch touching line C~2.5  F –About 50 squares …and lumped so 2 

Caltech CS184 Winter DeHon 23 Delay through Switching 0.6  m CMOS How far in GHz clock cycle?

Caltech CS184 Winter DeHon 24 First Attempts

Caltech CS184 Winter DeHon 25 (1) Shared Bus Familiar case Use single interconnect resource Reuse in Time Consequence?

Caltech CS184 Winter DeHon 26 Shared Bus Consider operation: y=Ax 2 +Bx +C –3 mpys –2 adds –~5 values need to be routed from producer to consumer Performance lower bound if have design w/: –m multipliers –u madd units –a adders –i simultaneous interconnection busses

Caltech CS184 Winter DeHon 27 Resource Bounded Scheduling Scheduling in general NP-hard –(find optimum) –can approximate in O(E) time

Caltech CS184 Winter DeHon 28 Lower Bound: Critical Path ASAP schedule ignoring resource constraints –(look at length of remaining critical path) Certainly cannot finish any faster than that

Caltech CS184 Winter DeHon 29 Lower Bound: Resource Capacity Sum up all capacity required per resource Divide by total resource (for type) Lower bound on remaining schedule time –(best can do is pack all use densely)

Caltech CS184 Winter DeHon 30 Example Critical Path Resource Bound (2 resources) Resource Bound (4 resources)

Caltech CS184 Winter DeHon 31 Example 2 RB = 8/2=4 LB = 5 best delay= 6

Caltech CS184 Winter DeHon 32 Shared Bus Consider operation: y=Ax 2 +Bx +C –3 mpys –2 adds –~5 values need to be routed from producer to consumer Performance lower bound if have design w/: –m multipliers –u madd units –a adders –i simultaneous interconnection busses

Caltech CS184 Winter DeHon 33 Viewpoint Interconnect is a resource Bottleneck for design can be in availability of any resource Lower Bound on Delay: Logical Resource / Physical Resources May be worse –Dependencies (critical path bound) –ability to use resource

Caltech CS184 Winter DeHon 34 Shared Bus Flexibility (+) –routes everything (given enough time) –can be trick to schedule use optimally Delay (Power) (--) –wire length O(kn) –parasitic stubs: kn+n –series switch: 1 –O(kn) –sequentialize I/B Area (++) –kn switches –O(n)

Caltech CS184 Winter DeHon 35 Term: Bisection Bandwidth Partition design into two equal size halves Minimize wires (nets) with ends in both halves Number of wires crossing is bisection bandwidth

Caltech CS184 Winter DeHon 36 (2) Crossbar Avoid bottleneck Every output gets its own interconnect channel

Caltech CS184 Winter DeHon 37 Crossbar

Caltech CS184 Winter DeHon 38 Crossbar

Caltech CS184 Winter DeHon 39 Crossbar Flexibility (++) –routes everything (guaranteed) Delay (Power) (-) –wire length O(kn) –parasitic stubs: kn+n –series switch: 1 –O(kn) Area (-) –Bisection bandwidth n –kn 2 switches –O(n 2 )

Caltech CS184 Winter DeHon 40 Crossbar Better than exponential Too expensive –Switch Area = k*n 2 *2.5K 2 –Switch Area/LUT = k*n* 2.5K 2 –n=1024, k=4  10M 2 What can we do?

Caltech CS184 Winter DeHon 41 Avoiding Crossbar Costs Typical architecture trick: –exploit expected problem structure We have freedom in operator placement Designs have spatial locality  place connected components “close” together –don’t need full interconnect?

Caltech CS184 Winter DeHon 42 Exploit Locality Wires expensive Local interconnect cheap 1D versions What does this do to –Switches? –Delay? (quantify on hmwrk)

Caltech CS184 Winter DeHon 43 Exploit Locality Wires expensive Local interconnect cheap Use 2D to make more things closer Mesh?

Caltech CS184 Winter DeHon 44 Mesh Analysis Can we place everything close?

Caltech CS184 Winter DeHon 45 Mesh “Closeness” Try placing “everything” close

Caltech CS184 Winter DeHon 46 Mesh Analysis Flexibility - ? –Ok w/ large w Delay (Power) –Series switches 1--  n –Wire length w--w  n –Stubs O(w)--O(w  n) Area –Bisection BW -- w  n –Switches -- O(nw) –O(w 2 n) –larger on homework

Caltech CS184 Winter DeHon 47 Mesh Plausible …but What’s w …and how does it grow?

Caltech CS184 Winter DeHon 48 Big Ideas [MSB Ideas] Interconnect Dominant –power, delay, area Can be bottleneck for designs Can’t afford full crossbar Need to exploit locality Can’t have everything close