Yaron Doweck Yael Einziger Supervisor: Mike Sumszyk 1.

Slides:



Advertisements
Similar presentations
Very Large Fast DFT (VL FFT) Implementation on KeyStone Multicore Applications.
Advertisements

KeyStone C66x CorePac Overview
Yaron Doweck Yael Einziger Supervisor: Mike Sumszyk Spring 2011 Semester Project.
KeyStone ARM Cortex A-15 CorePac Overview
Extended Memory Controller and the MPAX registers And Cache
KeyStone Advance Debug
- the new generation realtime operating system For embedded and fault tolerant applications.
Mohammed Yousef Abd El ghany, Faculty of Eng., Comm. Dep., 3rd year. Digital Signal Processor The Heart of Modern Real-Time Control Systems.
Keystone PCIe Usage Eric Ding.
Real-Time Video Analysis on an Embedded Smart Camera for Traffic Surveillance Presenter: Yu-Wei Fan.
High speed digital systems laboratory Part A - Presentation Project Name: Serial Communication Analyzer Presenter Name: Igal Kogan Alexander Rekhelis.
Presenting: Yaron Yagoda Kobi Cohen VERSITILE COMMUNICAION BETWEEN MULTI DSPS Digital Systems Laboratory Spring 2003 Supervisor: Isaschar Walter Final.
Introduction to K2E Devices
CSCE 313: Embedded Systems Multiprocessor Systems
Ethernet Bomber Ethernet Packet Generator for network analysis Oren Novitzky & Rony Setter Advisor: Mony Orbach Started: Spring 2008 Part A final Presentation.
Ethernet Bomber Ethernet Packet Generator for network analysis Oren Novitzky & Rony Setter Advisor: Mony Orbach Spring 2008 – Winter 2009 Midterm Presentation.
Lab #1 Introduction to Hardware & Software Tools of TMS320C6748 DSK
EE 345S Real-Time Digital Signal Processing Lab Fall 2008
© 2009 Acehub Vista Sdn. Bhd Introduction to ARM ® Processors.
KeyStone Multicore Software Development Ecosystem
Midterm Presentation Project Name: Serial Communication Analyzer Company Name: Digital laboratory Presenter Name: Igal Kogan Alexander Rekhelis Instructor:
A Flexible Architecture for Simulation and Testing (FAST) Multiprocessor Systems John D. Davis, Lance Hammond, Kunle Olukotun Computer Systems Lab Stanford.
LPC Speech Coder on the TI C6x DSP Mark Anderson, Jeff Burke EE213A / EE298-2 Prof. Ingrid Verbauwhede.
Anne Mascarin DSP Marketing The MathWorks
Getting Started With DSP A. What is DSP? B. Which TI DSP do I use? Highest performance C6000 Most power efficient C5000 Control optimized C2000 TMS320C6000™
General Purpose FIFO on Virtex-6 FPGA ML605 board midterm presentation
Hardware Overview Net+ARM – Well Suited for Embedded Ethernet
Out-of-Order OpenRISC 2 semesters project Semester A: Implementation of OpenRISC on XUPV5 board Final A Presentation By: Vova Menis-Lurie Sonia Gershkovich.
Multicore Software Development Kit (MCSDK) Training Introduction to the MCSDK.
Students: Oleg Korenev Eugene Reznik Supervisor: Rolf Hilgendorf
DSP Development System
The 6713 DSP Starter Kit (DSK) is a low-cost platform which lets customers evaluate and develop applications for the Texas Instruments C67X DSP family.
Multicore Software Development Kit (MCSDK) Training Introduction to the MCSDK.
NetBurner MOD 5282 Network Development Kit MCF 5282 Integrated ColdFire 32 bit Microcontoller 2 DB-9 connectors for serial I/O supports: RS-232, RS-485,
Prof. JunDong Cho VADA Lab. Project.
COMPUTER SYSTEM LABORATORY Lab10 - Sensor II. Lab 10 Experimental Goal Learn how to write programs on the PTK development board (STM32F207). 2013/11/19/
Out-of-Order OpenRISC 2 semesters project Semester A: Implementation of OpenRISC on XUPV5 board Midterm Presentation By: Vova Menis-Lurie Sonia Gershkovich.
Project Goals 1.Get to know Quartus SoPC builder environment 2.Stream 2.Stream Video 3.Build 3.Build foundation for part B - Tracking system.
Extended Memory Controller and the MPAX registers
A DSP-Based Platform for Wireless Video Compression Patrick Murphy, Vinay Bharadwaj, Erik Welsh & J. Patrick Frantz Rice University November 18, 2002.
TILEmpower-Gx36 - Architecture overview & performance benchmarks – Presented by Younghyun Jo 2013/12/18.
Cluster Computers. Introduction Cluster computing –Standard PCs or workstations connected by a fast network –Good price/performance ratio –Exploit existing.
NS7520.
Dan O. Popa, Freshman Seminar Spring 2015 EE 1105 : Introduction to EE Freshman Seminar Lab-Lecture: Op Amp Circuits, Embedded Computing.
© Imperial College LondonPage 1 A voltage controller design and it’s hardware implementation for a DC/AC power converter Xinxin Wang Control and Power.
EE 445S Real-Time Digital Signal Processing Lab Fall 2011 Lab #1 Introduction to Hardware & Software Tools of TMS320C6748 DSK.
1 DSP handling of Video sources and Etherenet data flow Supervisor: Moni Orbach Students: Reuven Yogev Raviv Zehurai Technion – Israel Institute of Technology.
Performed by: Nadav Haklai Noam Rabinovici Instructor: Mike Sumszyk Spring Semester 2010 המעבדה למערכות ספרתיות מהירות High speed digital systems laboratory.
28/03/2003Julie PRAST, LAPP CNRS, FRANCE 1 The ATLAS Liquid Argon Calorimeters ReadOut Drivers A 600 MHz TMS320C6414 DSPs based design.
Embedded Network Interface (ENI). What is ENI? Embedded Network Interface Originally called DPO (Digital Product Option) card Printer without network.
Keystone Advanced Debug. Agenda Debug Architecture Overview Advanced Event Triggering DSP Core Trace System Trace Application Embedded Debug Support Multicore.
Network Coprocessor (NETCP) Overview
KeyStone Multicore Software Development Ecosystem.
Implementation of Embedded OS Lab4 Cortex-M3 Programming.
TI Information – Selective Disclosure Implementation of Linear Algebra Libraries for Embedded Architectures Using BLIS September 28, 2015 Devangi Parikh.
Sparse Matrix-Vector Multiply on the Keystone II Digital Signal Processor Yang Gao, Fan Zhang and Dr. Jason D. Bakos 2014 IEEE High Performance Extreme.
DIGITAL SIGNAL PROCESSORS. What are Digital Signals? Digital signals have finite precision in both the time (sampled) and amplitude (quantized) domains.
DDRIII BASED GENERAL PURPOSE FIFO ON VIRTEX-6 FPGA ML605 BOARD PART B PRESENTATION STUDENTS: OLEG KORENEV EUGENE REZNIK SUPERVISOR: ROLF HILGENDORF 1 Semester:
Chap 4: Processors Mainly manufactured by Intel and AMD Important features of Processors: Processor Speed (900MHz, 3.2 GHz) Multiprocessing Capabilities.
1. TMS320C6X DSP Programming with Simulink – TI C6000 DSP Target i) TI C6000 DSP target enables simulink blocks to model or program signal processing algorithm.
Cluster Computers. Introduction Cluster computing –Standard PCs or workstations connected by a fast network –Good price/performance ratio –Exploit existing.
PRESENTED BY: MOHAMAD HAMMAM ALSAFRJALANI UFL ECE Dept. 3/31/2010 UFL ECE Dept 1 CACHE OPTIMIZATION FOR AN EMBEDDED MPEG-4 VIDEO DECODER.
ATLAS Pre-Production ROD Status SCT Version
TI Information – Selective Disclosure
Computer System Laboratory
Implementation of Embedded OS
Ming Liu, Wolfgang Kuehn, Zhonghai Lu, Axel Jantsch
Using FPGAs with Processors in YOUR Designs
The TMS320C6x Family of DSPs
Introduction to Digital Signal Processors (DSPs)
Presentation transcript:

Yaron Doweck Yael Einziger Supervisor: Mike Sumszyk 1

* הצגת הבעיה * פלטפורמה * CorePac overview * KeyStone overview * Evaluation Board * Code Composer Studio * שלבי העבודה * לוח זמנים 2

* הפרויקט עוסק במימוש אלגוריתם בזמן אמת על מעבד עיבוד אותות מסוג TI C6678. * מימוש מקבילי על מספר ליבות. * ניצול יכולת העברת מידע באופן יעיל ע " י רכיב DMA. * שימוש באפשרויות הזיכרון הרבות – SRAM L1 and L2, CACHE configuration, Shared L2, DDR3 MEMORY 3

* חומרה : TMS320C6678 Multicore Fixed and Floating-Point Digital Signal Processor כרטיס ה DSP המתקדם ביותר של חברת TI. * תוכנה : Code Composer Studio v5 with BIOS MCSDK 2.0 סביבת פיתוח של TI הכוללת סימולטור של כל רכיבי הכרטיס. 4

* 8 C66x CorePac DSP’s * Based on TI’s Keystone Multicore Architecture * 320 GMAC/ GHz * 32KB L1P, 32KB L1D, 512KB L2 Per Core * 4MB Shared L2 * 64-Bit DDR3 Interface (DDR3-1600) 5

6 * Fixed-Point and Floating point DSP. * L1 Program Memory, configurable as Cache\SRAM. * L1 Data Memory, configurable as Cache\SRAM. * L2 Memory, configurable as Cache\SRAM. * Internal DMA (Data transfer within the CorePac). * External Memory Controller, a bridge from the CorePac to the rest of the device. * Interrupt Controller (redirection due to interrupts or exceptions).

7 The KeyStone includes: * Up to 8 cores. * MultiCore Shared Memory (L2 SRAM). * External Memory (DDR 3) interface. * Virtual Address space for each core. * High Speed inter-core communication. C66x device family is based on the KeyStone MultiCore Architechture

8 הפרויקט יתבצע על כרטיס TMDXEVM6678L, הצפוי להגיע ביוני. הכרטיס מכיל : * TI C6678 Processor * 512MB DDR3 Memory * 128MB FLASH Memory * Ethernet port * LEDs and DIP switches * Onboard JTAG emulation with USB interface

C66xC67xC64xCore Fixed and Floating-PointFloating-PointFixed-PointData type GHz MHz MHzSpeed GMAC/core GFLOPS/core 32KB L1P+32KB L1D32KB L1 Cache 512KB + 4MB shared-1MBL2 Cache (8 cores) (1 core) (1 core) Board Power 9

סביבת פיתוח למערכות Embedded של TI. התוכנה מכילה קומפיילר של רכיבי TI ומספר כלי עזר נוספים : * Debugger. * סימולטור של הכרטיס. * Profiler המאפשר ניתוח מפורט של זמני הריצה. בנוסף, לסביבת העבודה של CCS יש להוסיף את חבילת הפיתוח המורחבת BIOS MCSDK 2.0 המאפשרת פיתוח תוכנה במעבדים מרובי ליבות של TI. 10

BIOS MultiCore Software Development Kit מכילה את אבני הבניין הבסיסיות לפיתוח תוכנה על מעבדים מרובי ליבות של TI: * SYS\BIOS – מערכת הפעלה פשוטה לכרטיס. * Chip-Support Library – ספריה המאפשרת ממשק לרכיבי המעבד השונים (Cache,DMA, etc.) * DSPLIB – ספריה המכילה פונקציות רבות הקשורות לעיבוד אותות. * IMGLIB – ספריה המכילה פונקציות רבות לעיבוד תמונה. * מספר דוגמאות קוד בסיסיות. 11

סביבת הפיתוח כוללת סימולטור מתקדם המאפשר לדמות את הרכיבים הבאים : * 8 ליבות המעבד. * מנגנון Cache. * מנגנון ניהול זכרון משותף. * זכרון DDR3. * Inter-processor communication. * Enhanced-DMA. * ועוד. 12

1. לימוד סביבת העבודה (CCS) * הגדרת הכרטיס. * שימוש בסימולטור. 2. לימוד יכולות הכרטיס ותצורות העבודה השונות * מימוש תוכנית פשוטה שתעבוד בצורה מקבילית. * ניהול L1,L2 באופן עצמאי כזכרון SRAM ללא מנגנון Cache. * שימוש במנגנון DMA ופסיקות על מנת לחסוך זמן CPU. 13

3. מימוש אלגוריתם בעיבוד תמונה תוך ניצול כל יכולות הכרטיס * חלוקת התכנית ליחידות ביצוע בלתי תלויות על מנת לאפשר מקביליות מירבית. * ניהול הזכרון באופן אופטימלי תוך שימוש בתעבורת DMA. 4. הערכת ביצועים * עמידה בדרישות זמן אמת. * בדיקת שיפור זמני הריצה ללא שימוש במנגנון ניהול הזכרון של הכרטיס. * בדיקת שיפור זמני הריצה ע " י שימוש ב DMA. 14

1. לימוד סביבת העבודה (CCS) 2. לימוד יכולות הכרטיס ותצורות העבודה השונות 3. מימוש אלגוריתם בעיבוד תמונה תוך ניצול כל יכולות הכרטיס 4. הערכת ביצועים 15

First part: Learning the fundamentals 1. Code composer studio basics, profiling and performance analysis capabilities (1 week) 2. Memory configuration and allocation, DMAs, Interrupts (3 weeks) 3. Fixed and Floating point Libraries (DSPlib,VLib,...) (1 week) 4. Multicore configurations (DSP/BIOS operating system, parallel and pipeline processing) (2 weeks) 16

Second part: Implementation of an algorithm in image processing using DMAs/Libs/multicore 1. Implementation of a bidirectional data flow between DDRIII and L1, possibly through L2. (3 weeks) 2. Performance analysis (throughput, latency and accuracy) when using floating point versus fixed point libraries. (2 weeks) 3. Usage of hardware semaphores for parallel data access and Multicore Navigator for enabling messages communication between different cores. (4 weeks) 17