Whats New in Globalization? Mark Davis President & Cofounder The Unicode Consortium.

Slides:

Advertisements

Similar presentations

Language Tags W3C Project Review. Presenter and Agenda Addison Phillips Internationalization Architect, Yahoo! Co-Editor, Language Tag Registry Update.

Advertisements

Language Tags and Locale Identifiers A Status Report.

Unicode Security Mark Davis. The Unicode Consortium Software globalization standards: define properties and behavior for every character in every script.

New in Unicode Mark Davis, John Jenkins. Agenda Unicode UCA Regular Expressions Security Considerations Character Mapping Common Locale Data.

Unicode/IDN Security Mark Davis President, Unicode Consortium Chief SW Globalization Arch., IBM.

Globalization Gotchas

Whats New in Globalization Mark Davis. Unicode Character Database: UCD 5.0 Schedule Currently in β2 Due June, 2006 Major part of the Unicode Standard.

Unicode Mark Davis Unicode Consortium President IBM Chief SW Globalization Architect

Mark Davis President, Unicode Consortium

Unicode 4.0 Mark Davis President, The Unicode Consortium Note: slides differ from proceedings.

Unicode Mark Davis Unicode Consortium President IBM Chief SW Globalization Architect.

Internationalizing WHOIS Preliminary Approaches for Discussion Internationalized Registration Data Working Group ICANN Meeting, Brussels, Belgium Jeremy.

ICANN Rio Meeting IDN Authorization for TLDs with ICANN agreements 26 March, 2003 Andrew McLaughlin.

Internationalized Domain Names Introduction & Update MENOG 1 Bahrain April 3-5, 2007 By: Baher Esmat Middle East Liaison.

IETF 71 Philadelphia - ENUM IANA Registration of Enumservices: Guide, Template and IANA Considerations draft-ietf-enum-enumservices-guide-08 B. Hoeneisen.

IPP Printer State Extensions IPP Working Group 19 February 2007 Maui Craig Whittle / Ira McDonald.

Worldwide typography (and how to apply JIS-X to Unicode) Michel Suignard Microsoft Corporation.

From UCS-2 to UTF-16 Discussion and practical example for the transition of a Unicode library from UCS-2 to UTF-16.

© 1998, Progress Software Corporation 1 Migration of a 4GL and Relational Database to Unicode Tex Texin International Product Manager.

Global Registry Services 1 INTERNATIONALIZED Domain Names Testbed presented to ITU/WIPO Joint Symposium Geneva 6-7 Dec An Overview On VeriSign Global.

1 Character Conversions and Mapping Tables Presented By: Markus Scherer George Rhoten Raghuram (Ram) Viswanadha.

Building International Applications with Visual Studio.NET Achim Ruopp International Program Manager Microsoft Corporation.

Getting Familiar with Web Pages 1 2 The Internet Worldwide collection of interconnected computer networks that enables businesses, organizations, governments,

Internationalization Status and Directions: IETF, JET, and ICANN John C Klensin October 2002 © 2002 John C Klensin.

Hypermedia systems Jakub Husár & Tomáš Jurík. Content XHTML 2.0 Definition Short history Differences between 1.0 and 2.0 Usage suitability Improvements.

Programming Paradigms and languages

Text #ICANN50. Text #ICANN50 IDN Variant TLD Program GNSO Update Saturday 21 June 2014.

1 HTML’s Transition to XHTML. 2 XHTML is the next evolution of HTML Extensible HTML eXtensible based on XML (extensible markup language) XML like HTML.

Review1 What is multilingual computing? Bilingual, trilingual, vs. Multilingual What are the fundamental issues in multi-lingual computing? –Representation.

Batch-conversion of Non-standard Multiscript Records by XSLT Lucas Mak Metadata and Catalog Librarian Michigan State University Catalog Management Interest.

Unicode, character sets, and a a little history. Historical Perspective First came EBCIDIC (6 Bits?) Then in the early 1960s came ASCII – Most computers.

1 © 2000, Cisco Systems, Inc. DNSSEC IDN Patrik Fältström

Chapter 1 Internet & Web Basics Key Concepts Copyright © 2013 Terry Ann Morris, Ed.D. 1.

Internationalized Domain Names Technical Review and Policy Implications John C Klensin APTLD Manila 23 February 2009.

Sophia Antipolis, September 2006 Multilinguality, localization and internationalization Miruna Bădescu Finsiel Romania.

Unicode & W3C Jataayu Software C. Kumar January 2007.

San José, CA – September, 2004 Localizing with XLIFF and ICU Markus Scherer Raghuram (Ram) Viswanadha IBM San.

JSP Standard Tag Library

Creating Interfaces: Localization Language & other issues character codes Homework: preparation for future topics.

CcTLD IDN TF Report ccTLD Meeting, Rio de Janero Mar. 25, 2003 Young-Eum Chair, ccTLD IDN TF.

Globalisation & Computer Systems week 5 1. Localisation presentations 2.Character representation and UNICODE UNICODE design principles UNICODE character.

1 herbert van de sompel CS 502 Computing Methods for Digital Libraries Cornell University – Computer Science Herbert Van de Sompel

119th International Unicode ConferenceSan Jose, California, September 2001 An Overview of ICU Helena Shih Chapman Doug Felt

1 CS 502: Computing Methods for Digital Libraries Lecture 4 Text.

Global Registry Services 1 INTERNATIONALized Domain Names Testbed An Overview On VeriSign Global Registry Services.

Chapter 1 Internet & Web Basics Key Concepts Copyright © 2013 Terry Ann Morris, Ed.D. Revised 1/12/2015 by William Pegram 1.

Internationalized Domain Names (IDN) APAN Busan James Seng former co-chair, IDN Working Group.

1 An ICU Library Supporting the Display of Complex Text Eric Mader Globalization Center of Competency, Cupertino, CA.

San Jose, California, September 2002 Compact Encodings of Unicode Markus W. Scherer Unicode/G11N Software Engineer IBM Globalization Center of Competency.

Language / Locale IDs M. Davis, IBM A. Phillips, webMethods.

Registration of IDN Language Tables John L. Crain Bangkok, CcTLD Training 2004 John L. Crain Bangkok, CcTLD Training 2004.

IBM Globalization Center of Competency © 2006 IBM Corporation IUC 29, Burlingame, CAMarch 2006 Automatic Character Set Recognition Eric Mader, IBM Andy.

Building digital libraries in Indian languages: case studies with Hindi and Kannada B.S. Shivaram Trainee ( ) National Center for Science Information.

European Endeavor Users Group Meeting Helsinki, Sept Esa-Pekka Keskitalo, System Analyst Helsinki University Library OpenURL 1.0.

Globalisation & Computer systems Week 5/6 Character representation ACII and code pages UNICODE.

4395bis irireg Tony Hansen, Larry Masinter, Ted Hardie IETF 82, Nov 16, 2011.

Sorting it all out: An introduction to collation Cathy Wissink Michael Kaplan Globalization Infrastructure and Font Technology Windows International Microsoft.

IDN UPDATE Tina Dam ICANN Chief gTLD Registry Liaison Public Forum, Wellington 30 March 2006.

IDNAbis and Security Protocols or Internationalization Issues with Short Strings John C Klensin SAAG – 26 July 2007.

Internationalization of Domain Names James Seng CTO, i-DNS.net International co-chair, IETF IDN Working Group.

Understanding Character Encodings Basics of Character Encodings that all Programmers should Know. Pritam Barhate, Cofounder and CTO Mobisoft Infotech.

San Jose, California September 2002 What is ICU? Roadmap and Myths Helena Shih Chapman ICU Development Manager IBM Globalization Center of Competency.

1 CS 502: Computing Methods for Digital Libraries Guest Lecture William Y. Arms Identifiers: URNs, Handles, PURLs, DOIs and more.

Setting the stage: linked data concepts Moving-Away-From-MARC-a-thon.

Complex Text Layout Issues with examples from Myanmar

Multilingual Domain Name

Director of Data Communications

Status and planning reports of JPNIC

Multilingual Domain Name

John C Klensin APNIC Beijing, 25 August 2009

Presentation transcript:

Whats New in Globalization? Mark Davis President & Cofounder The Unicode Consortium

The Unicode Standard, Version 5.0 Hard copy versions of the Unicode Standard have been among the most crucial and most heavily used reference books in my personal library for years. Donald E. Knuth For more than a decade, Unicode has been a foundation for many Microsoft products and technologies; Unicode Standard Version 5.0 will help us deliver important new benefits to users. Bill Gates The path W3C follows to making text on the Web truly global is Unicode. Sir Tim Berners-Lee, KBE Without Unicode, Java wouldn't be Java, and the Internet would have a harder time connecting the people of the world. James Gosling

The Unicode Standard, Version 5.0 Obsoletes previous versions Basis for Microsoft's Vista; in upgrade plans for Google, Yahoo!, and ICU, to name but a few. Hundreds of pages of new information; thousands of revised pages; all Unicode Standard Annexes Systematic framework for improved text processing Improvements to the Unicode Encoding Model for UTF-8, … Rigorous stability of case folding and identifiers Improved interoperability and backward compatibility Enabling additional new ways to optimize code

U5.0 Unicode Character Database Unicode: far more than a list of characters Properties: key to how characters function Changes in 5.0 Scripts: Unassigned code points Zzzz Casing Stability: Upper folded BIDI: Consistent Bidi_Mirrored Now Normative: kIICore Line Break: SE Asian Complex_Context New Properties: Normative_Name_Alias, Deprecated, 3 Unihan provisional properties General99,089 Private Use137,468 Surrogate2,048 Noncharacter66 Reserved875,441

U5.0 Conformance Stable Case-Folded Upper Lower Much clearer encoding / property model Stable Approved Named Character Sequences Bengali, Gurmukhi, Tamil changes Combining grapheme joiner clarified Disunification of Diacritics

5.0 Annexes: Core UAX #9: Bidirectional Algorithm Tightened conformance requirements UAX #15: Unicode Normalization Forms New Stream-Safe Text Format Appendix of characters requiring special handling Expanded info on stability guarantees Additional detailed figures, guidelines UAX #31: Identifier and Pattern Syntax Added profiles & information on usage

U5.0 Annexes: Boundaries UAX #14: Line Breaking Properties Rules modified to improve behavior Now Normative (conformance clauses reorganized) UAX #29: Text Boundaries Edge cases improved Tailorings for text boundaries now in Unicode CLDR Format of the rules changed to ease implementation Additional guidelines on regex, identifiers,…

U5.0 Characters by Script

Unicode Character Timeline

Unicode Guide for Programmers Adjunct to Standard Concise Guide for Software Globalization Crucial Concepts Key Gotchas Recognize and Avoid Details on Encoding & conversions: UTF-8, 16, 32 & BOM Using character properties Text Operations

Unicode Common Locale Data Repository: CLDR Key locale data for world languages Most extensive standard repository of locale data XML format Δευτέρα, 05 Σεπτεμβρίου 2005 Montag, 5. September , ,57руб. Arabic – arabski Bulgarian – bułgarski Czech – czeski … Africa – Central America – Eastern Africa – Northern Africa – … AED – د.إ. BHD – د.ب. DZD – د.ج. EGP – ج.م. EUR – … Z < Å

Unicode CLDR languages and 142 territories – 360 locales in all 25% more locale data; over 17,000 new/modified items Repository separated into language vs locale data Language-specific segmentation (word/line breaks…) Transliterations (eg Ελληνικά Ellēniká) Data for lenient date/time formatting and parsing Programmer asks for numeric day + abbreviated month Best format pattern returned, eg dd.MMM + Quarters in dates (eg 2006Q1) BCP 47 compatibility + extensions

BCP 47 Language Tags Usage: HTTP, HTML, XML; CLDR Locale ID s… RFC 4646; Obsoletes RFCs 1766, 3066 Addresses problems in RFC3066 ISO standards: stability / accessibility / ambiguity Parseability, Extensibility; Registration speed Identification of script (where necessary): Traditional Chinese (zh-Hant), Serbian in Latin (sr-Latn), Azerbaijani (Cyrillic) az-Cyrl, etc.

Unicode Security Examples: Visual Confusables: paypal.com with Cyrillic a… Non visual problems: buffer overflows, non-shortest form,… UTR# 36 Unicode Security ConsiderationsUnicode Security Considerations Guidelines & Recommendations UTS# 39. Unicode Security MechanismsUnicode Security Mechanisms Algorithms & Data Limitations on Repertoire Testing for Confusables

Internationalized Domain Names One instance of broad problem Many RFCs use Nameprep – limited to Unicode 3.2 Unicode recommendations Narrow the repertoire: exclude symbols, punctuation Expand the coverage: currently only Unicode 3.2. IETF idn-nextsteps published Some positive developments, but misreads Unicode, needs more work

URL IRI International Resource Identifier (IRI) UTF-8, %-escaped Example: JP /.html JP%E7%B4%8D... %E8%B1%86.html See

Ideographic Variation Database U+82A6 ashi: multiple forms The first occurrence – any glyph Second occurrence is in the name of the town Ashiya – customarily displayed with form #4 Registration for variants

Ideographic Variation Database Variation Selector Identifies a restriction on the appearance of a character Character + Variation Selector = Variation Sequence Han ideographs Impossible to build a single collection for everyone: requirements from scholars, governments and publishers… Instead, registration of multiple independent collections Unicode Ideographic Variation Database A given variation sequence is used in at most one collection Makes interchange of variation sequences reliable. Registration, not Assessment

ICU 3.6 Mature, portable C/C++/Java intl libraries Unicode 5.0, UCA 5.0, CLDR 1.4 ICU4C Charset Detection Improved: Time Zones, Thai word break, UText (64 bit), Performance, Data Management,… ICU4J Globalization Preferences Flexible date/time formats*, Charset conversion*

Near-Term Issues Unicode 5.0.1, Unicode 5.1 CLDR / BCP 47bis LDAP Collation Registry IANA Charset Registry

Unicode possibilities Characters CJK Unified Ideographs Extension C Minority Scripts: Cham and Lanna Malayalam chillu … Properties/Behavior Normalization process for stable strings …

CLDR 1.5 / BCP 47bis CLDR 1.5 Data Submission Starting November New structures / data BCP 47 Adding ~7,000 (!) new language subtags Possibly other changes…

LDAP Now has definitive comparison(good) Stuck at Unicode 3.2(bad)

Collation Registry Nearing approval Adds ability to register comparisons Workable for basic cases draft-newman-i18n-comparator-14.txt

IANA Charset registry Currently limited usefulness Ill-defined Missing mapping tables Incomplete Inaccurate Regime Change Hope for future improvements!

Whats New in Globalization? Mark Davis President & Cofounder The Unicode Consortium