カメラ撮影文字の 事例に基づく実時間認識 岩村雅一 辻 智彦 黄瀬浩一.

Slides:



Advertisements
Similar presentations
3D Wand による 3 次 元形状計測. 3次元形状計測装置  3D Wand(テクノドリーム 21 社 製)  構成 3D Wand 本体: 7 つの発光ダイオー ドとラインレーザー発光装置が一体となっ た手に持って移動できる電池駆動の装置.
Advertisements

物理演算を利用したビデオエフェクタの 作成 浅野益弘. 研究内容 経緯 NiVE ( Nico Visual Effects )用のエフェ クトプラグインの作成 本プラグインにより動画作成にかかる 時間と手間の短縮と省力化を目指す.
東京工科大学 コンピュータサイエンス 亀田弘之
7.n次の行列式   一般的な(n次の)行列式の定義には、数学的な概念がいろいろ必要である。まずそれらを順に見ていく。
9.線形写像.
概要 2009 年 10 月 23 日に、いて座に出現した X 線新星 (XTE J ) を、出現から消滅まで 全天 X 線監視装置 MAXI (マキシ)で観測したところ、 新種のブラックホール新星であることが判明した。 従来のブラックホールを、 多量のガスを一気に飲み込む「肉食系」と.
時間的に変化する信号. 普通の正弦波 は豊富な情報を含んでいません これだけではラジオのような複雑な情報 を送れない 振幅 a あるいは角速度 ω を時間的に変化 させて情報を送る.
情報処理A 第10回 Excelの使い方 その3.
麻雀ゲーム 和島研究室 ソ 小林巧人
5.連立一次方程式.
論理回路 第2回 今日の内容 前回の課題の説明 数の体系 – 数の表現 – 代表的な数 – 基数の変換 – 補数.
ノイズ. 雑音とも呼ばれる。(音でなくても、雑 音という) 入力データに含まれる、本来ほしくない 成分.
青森大学 5 号館の 模型の設計と製作 ソ 小山 内 拓真
広告付き価格サービ ス 小園一正. はじめに 世の中には様々な表現方法の広告があり ます。その中でも私たち学生にとって身 近にあるものを広告媒体として取り入れ られている。 価格サービス(無料配布のルーズリー フ)を体験したことにより興味を惹かれ るきっかけとなった。主な目的は、これ.
素数判定法 2011/6/20.
フーリエ係数の性質. どこまで足す? 理想的には無限大であるが、実際に はそれは出来ない これをフーリエ解析してみる.
地球温暖化と 天候の関係性 ~温暖化は天候のせいなのではないのか~. 目的課題 地球温暖化現象 ただの気象条件によるものではないのか? 地球温暖化現象に天候は関係しているの か?
公開鍵暗号系 2011/05/09.
太陽系シミュレータ 和島研究室 ソ 畑本義明
1章 行列と行列式.
本宮市立白岩小学校. 1 はじめに 2 家庭学習プログラム開発の視点 ① 先行学習(予習)を生かした 確かな学力を形成する授業づく り ② 家庭との連携を図った家庭学習の習慣化.
フーリエ級数. 一般的な波はこのように表せる a,b をフーリエ級数とい う 比率:
レイアウト非依存な 実時間カメラベース文字認識 岩村雅一 辻 智彦 堀松 晃 黄瀬浩一. IMP Web カメラ 文書 リアルタイム に 認識結果を出 力 キャプチャ 実時間カメラベース文字認識システム 1 秒間に 200 ~ 250 文字程度認識可能.
3.エントロピーの性質と各種情報量.
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
Excelによる積分.
1 6.低次の行列式とその応用. 2 行列式とは 行列式とは、正方行列の特徴を表す一つのスカ ラーである。すなわち、行列式は正方行列からスカ ラーに写す写像の一種とみなすこともできる。 正方行列 スカラー(実数) の行列に対する行列式を、 次の行列式という。 行列 の行列式を とも表す。 行列式と行列の記号.
計算のスピードアップ コンピュータでも、sin、cosの計算は大変です 足し算、引き算、掛け算、割り算は早いです
線形符号(10章).
1 0章 数学基礎. 2 ( 定義)集合 集合については、 3セメスタ開講の「離散数学」で詳しく扱う。 集合 大学では、高校より厳密に議論を行う。そのために、議論の 対象を明確にする必要がある。 ある “ もの ” (基本的な対象、概念)の集まりを、 集合という。 集合に含まれる “ もの ” を、集合の要素または元という。
複素数.
4.プッシュダウンオートマトンと 文脈自由文法の等価性
1 0章 数学基礎. 2 ( 定義)集合 集合については、 3セメスタ開講の「離散数学」で詳しく扱う。 集合 大学では、高校より厳密に議論を行う。そのために、議論の 対象を明確にする必要がある。 ある “ もの ” (基本的な対象、概念)の集まりを、 集合という。 集合に含まれる “ もの ” を、集合の要素または元という。
信号測定. 正弦波 多くの場合正弦波は 0V の上下で振動する しかし、これでは AD 変換器に入れら れないので、オフ セットを調整して データを取った.
1 9.線形写像. 2 ここでは、行列の積によって、写像を 定義できることをみていく。 また、行列の積によって定義される写 像の性質を調べていく。
通信路(7章).
6.符号化法(6章).
ビット. 十進数と二進数 十進数  0から9までの数字を使って 0、1、2、3、4、5、6、7、8、9、 10、11、12 と数える 二進数  0と1を使って 0、1、10、11、100、101、11 0、111 と数える.
創成C PROGRAMMING PROJECT 中部大学工学部情報工学科:創成Cインタラクティブデザイン( アプリ名: ZIP 2 GPS 作成者: EP00000 藤吉 弘亘.
重不況の経済学 第2章第2節 山下 真弘. 不均等成長 不均等成長=市場の特定の製品または特定の国・ 地域で付加価値の縮小が生じること 要因は2つ 製品別の「生産性向上速度の差」 付加価値総額の天井(=需要制約)
アルゴリズムとデータ構造 補足資料14-1 「ハッシュ法」
カメラ付きAndroid端末で 博物館などの展示物情報を 提供する手法
3.正方行列(単位行列、逆行列、対称行列、交代行列)
レイアウトとデザインの基本 情報処理演習2.
安心・安全な高齢者用電動いす ナビゲーションシステムの開発 首都大学東京大学院 理工学研究科数理情報科学専攻 福永 力 都施策提案発表会 電動イスナビゲーションシス テム.
名古屋工業大学 電気電子工学科 岩波・岡本研究室 野々村嘉人
論理回路 第1回. 今日の内容 論理回路とは? 本講義の位置づけ,達成目標 講義スケジュールと内容 受講時の注意事項 成績の評価方法.
Bar-TOP における光の 群速度伝播の解析 名古屋大学 高エネルギー物理研究室 松石 武 (Matsuishi Takeru)
クロスバリデーションを用いた ベイズ基準によるコンテキストクラスタリング
経済分析の基本ツール 公共経済学 第 2 回 畑農鋭矢 1. 労働時間(意思決定の対 象) O 収入 費用 労働時間の意思決定 何時間働くのが最適か?
ベイズ基準による音声認識のための 事前分布推定法の検討 情報工学専攻 徳田・李研究室 橋本 佳. 2 背景  音声認識技術の普及  カーナビゲーションシステム  携帯電話 ⇒ さらなる認識性能の改善が必要  隠れマルコフモデルによる音声のモデル化  性能改善のためにはモデルの高精度化が必要.
データベース入門 日進高等学校 情報化推進委員会. 表計算ソフトとの比較 表計算ソフト (Excel) データベース ( Access ) 編集 二人目はデータの編集が ロックされる 複数の人が同時にデータ を 編集できる 信頼性 ファイルの数だけ データが存在する データは一つ データ処理 自由.
実装の流れと 今後のスケジュール 03k0014 岸原 大祐. システム概要 天気データをもとに、前向き推論をし ていき、親の代わりに子供に服装、持 ち物、気をつけることなどを教える。
Automatic Language Acquisition, an Interactive Approach † Robert J. Martin † 大西昇 ‡ 山村毅 † 名古屋大学 ‡ 愛知県立大学.
ノベルゲームシステムとネット ワークの連携について 1104081 下元 悠嗣. 研究内容 ノベルゲーム専用のスクリプトエンジン 吉里吉里 /KAG にネットワーク機能を追加 することで従来にない特色を持ったシス テムの開発.
物体識別のための Adaboost を用いた入力特徴の評価 物体識別のための Adaboost を用いた 入力特徴の評価 情報工学科 藤吉研究室 EP02132 土屋成光.
8.任意のデータ構造 (グラフの表現とアルゴリズム)
二次元、三次元空間の座標表現 点のベクトル表現と行列による変換 点、線、面の数理表現 図形の変換 投影、透視変換
メニューに戻る メニューに戻る | 前表示スライド 前表示スライド G*power 3 の web ページ Windows はこちら Mac はこちら ダウンロード後,実行してインストール.
実験5 規則波 C0XXXX 石黒 ○○ C0XXXX 杉浦 ○○ C0XXXX 大杉 ○○ C0XXXX 高柳 ○○ C0XXXX 岡田 ○○ C0XXXX 藤江 ○○ C0XXXX 尾形 ○○ C0XXXX 足立 ○○
ことばとコンピュータ 2007 年度 1 学期 第 1 回. 2 ことばとコンピュータ 授業科目名:言語情報処理論 授業題目名:ことばとコンピュータ 履修コード: 5067 教室: 323 一学期開講 授業の進め方 – 基本的に講義中心ですすめ,時々コンピュー タを使う.
オセロの思考アルゴリズムについて 1103072 岩間 隆浩.
CPU対戦可能な ビリヤードゲーム 和島研究室 ソ17002 阿部幸司
音の変化を視覚化する サウンドプレイヤーの作成
Self-efficacy(自己効力感)について
1 オペレーティングシステム #7 計算機工学 III オペレーティングシステム #7 主記憶管理:主記憶管理基礎 2006/05/26 津邑 公暁.
本文. 考えながら読みましょ う 「いろいろなこと」( 3 行目)は何で すか 「①電話料金はコンビニで支払いをしていま す。いつでも払えますから、便利です。」 「②夕食はコンビニで買います。お弁当やお かずがいろいろありますから。」今、若者に 人気のあるコンビニは、いろいろなことをす るのに非常に便利な場所になった。
IIR 輪講復習 #18 Matrix decompositions and latent semantic indexing.
2015/11/19. To foster Historical Thinking Skill by Creating Story Necessary Relationships and Elements of Characters In historical learning, historical.
地球儀と様々な地図. 1 球体としての地球 こうした現象はあることをイ メージすると理解できる。
Presentation transcript:

カメラ撮影文字の 事例に基づく実時間認識 岩村雅一 辻 智彦 黄瀬浩一

カメラベース文字認識システム リアルタイムで動作 認識結果 関連情報 カメラ 文書 ノートPC “University” 翻訳 ・大学 画像 音声

♪ 応用例 歩 者 行 天 国 環境中の全ての文字を認識して、 必要な情報のみを提供することができる 視覚障害者への音声案内 翻訳システム 『押ボタン信号があります』 Car-free mall 歩 者 行 天 国 ♪ ♪ As possible applications of the system, there are a voice navigator for visually disabled people, translation service for foreign travelers who cannot understand the local language, and so on.

認識の流れ S c h o l ① 1文字ごとに文字認識 本発表 ② 文字を連結して単語を推定 昨日発表 ① どこにどんな文字があるか  辻 智彦, 岩村 雅一, 黄瀬 浩一:  “リアルタイム単語認識技術を利用した   カメラベース情報取得システム” (PRMU2009-216) ① 1文字ごとに文字認識 ② 文字を連結して単語を推定 本発表 昨日発表 ① どこにどんな文字があるか ② どんな単語があるか S c h o l “School”

従来手法の長所 (MIRU2009/CBDAR2009にて発表) 実時間処理 ノートPCで動作可能 射影歪みに頑健 斜め45度から認識可能 レイアウトフリー 方針:テンプレートマッチングによる カメラ撮影文字の認識

従来手法の短所: 多種のフォント登録による認識性能の低下 複数フォントを登録すると 認識率が急激に低下 従来手法 クラス認識率 (%) 目標:100フォントを登録可能に フォント数

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

従来手法1: 前提条件(1) 切り出した後の文字の高速処理に特化 連結成分単位の認識 問題設定 後処理へ i S c h o l 文字は同一平面上に存在 文字は二値化で簡単に抽出可能 S c h o l In order to be free from layout constraints, our proposed method recognizes each connected component. In this research, recognition objects are defined as black texts on a flat white paper. And we assume that we can extract connected components with binarization. 切り出した後の文字の高速処理に特化 8

従来手法1: 前提条件(2) ― クラス単位の認識 文字認識部分 単語認識部分 a a i i p M d d M W e e 同一クラス

従来手法1: 前提条件(2) ― クラス単位の認識 同一クラスに統合された字種(自動的に生成) Arialの場合 0 O o 6 9 7 L C c E m I l N Z z S s V v W w b q d p n u

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

A A 従来手法1-2: アフィン不変な認識 射影歪みに頑健な 認識の実現 特徴点数:P アフィン不変な認識 クエリ画像 テンプレート画像 同一の3点が選択できれば、照合可能 A 正規化 クエリ画像 For robustness to perspective distortion, our method does affine invariant matching. If corresponding 3 feature points are extracted, the captured image and the template image can be matched by normalization. There is a method to cope with the problem which is called geometric hashing, in short, we call GH. We apply GH to recognition of a connected component, and we call the method contour version of GH. The method is the base of our proposed method. A 正規化 テンプレート画像 特徴点数:P 12

従来手法1-2: 同一の3点を選択する方法(単純な場合) P 点から3点を選択する全ての組み合わせを試す 1st 2nd 3rd Database In this method, 3 points are selected randomly from P contour points. For matching the images, all arrangements have to be generated. The total number of the patterns is the order of P cubic. This is too large number to compute the feature vector in real-time. パターン数 P (P-1) (P-2) O(P3) × × = 13

O(P3) 1 P 1 O(P) 従来手法1-2: 従来手法が作る3点の配置 P=100 の場合 全組み合わせ 従来手法 970,200 従来手法1-2: 従来手法が作る3点の配置 登録したテンプレートと 対応しない組み合わせを計算しない P=100 の場合 全組み合わせ 従来手法 970,200 100 実時間認識を実現 1st Database 2nd 3rd In order to recognize a character in real-time, we reduce the 3-point arrangements without losing its recognition ability. The key idea of the reduction is to use an affine invariant in a different manner as usual. O(P3) パターン数 1 P 1 O(P) × × = 14

A 従来手法1-2: パターン数を削減する原理 = 通常の方法 S1 S’1 アフィン不変量 面積比 S1 S0 S’1 S’0 S0 3点の配置  面積比 A S1 S’1 アフィン不変量 面積比 We use an area ratio which is one of the affine invariants for the reduction. The usual process is that area ratios S0 and S1 are unchanged before and after affine transformation. = S1 S0 S’1 S’0 S0 S’0 15

A 従来手法1-2: パターン数を削減する原理 = 通常とは逆の方法 S1 S’1 アフィン不変量 面積比 S1 S0 S’1 S’0 S0 2点の配置 + 面積比  3点目の位置 A S1 S’1 アフィン不変量 面積比 The unusual process is that when two points and area ratio are given, the third point can be determined uniquely. = S1 S0 S’1 S’0 S0 S’0 16

従来手法1-2: 従来手法のパターンの生成方法 一意 1点目:図形の重心 (アフィン歪みに不変) 2点目:輪郭上の任意の点 3点目:面積比によって決定 一意 A 特徴点数:P Using such a method, we generate the 3-point arrangements as follows. The first point is determined from the centroid of the connected components instead of a contour point. In fact, the centroid is affine invariant. The second point is selected arbitrary from the feature points. At the selection of the third point the unusual process of the affine invariant is used. The third point is determined from a point which makes the largest triangle. 17

従来手法1-3: 特徴ベクトルを用いた図形の照合 従来手法1-3: 特徴ベクトルを用いた図形の照合 特徴ベクトルの計算 正規化 領域分割 黒画素の割合のヒストグラム作成 量子化 特徴ベクトル A 1 1 1 ... In order to match the images, a feature vector is computed. Firstly, 2 lines are drawn and the image is normalized so that 2 lines are perpendicular. And the image is divided into several equal parts. Then, ratios of black area in every subregions are computed. The value of the ratio is quantized. 18

従来手法1-4: ハッシュを用いた高速化 ― 登録 特徴ベクトルをハッシュテーブルに登録 A データベース 1 2 3 4 5 6 … Hash ID : 1 A Hash table In the storage phase, all the feature vectors are stored with classes and 3 points to a hash table. Hash ID : 5 A Hash ID : 2 19

従来手法1-4: ハッシュを用いた高速化 ― 認識(検索) 特徴ベクトルを作成 字種に投票 データベース 1 2 3 4 5 6 … Hash table ID : 1 ID : 5 ID : 2 In the retrieval phase, the feature vectors of captured images are computed. And the corresponding data to the feature vectors is retrieved from the hash table, and then casts a vote for corresponding classes. Result A A B ... R ... 20

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

i j 従来手法2:分離文字の認識 5 25 40 相手の面積 相対位置 連結成分 字種 面積 面積: 5 面積: 40 分離文字テーブルを作成 相手の面積 相対位置 連結成分 字種 面積 j i 40 25 5 面積: 5 In order to recognize the separated characters, we prepare a table. In the storage phase, the data of the separated character such as area and position is stored to the table. And then, each connected component are stored to the hash table separately. チェック 面積: 40 22

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

A 従来手法3: 姿勢推定(1) パラメータ 対応する3点からアフィン変換パラメータを推定 紙面の姿勢 文字の姿勢 アフィン変換 独立変倍 従来手法3: 姿勢推定(1) 紙面の姿勢 文字の姿勢 対応する3点からアフィン変換パラメータを推定 A アフィン変換 パラメータ We can estimate the pose of papers and pose of characters by calculating affine parameters from corresponding 3 points which are obtained at retrieval process. The parameter contains independent scaling, shear, rotate, and scaling. The pose of a paper is estimated from independent scaling and shear. And the pose of characters is estimated from rotate and scaling. 独立変倍 シアー 回転 拡大・縮小 24

従来手法3: 姿勢推定(2) 連結成分の対応関係から パラメータを推定 紙面の姿勢 文字の姿勢 最も密度の高い点を選択 従来手法3: 姿勢推定(2) 紙面の姿勢 文字の姿勢 最も密度の高い点を選択 最も密度の高い点を選択

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

提案手法 特定物体認識の高速化に使用した アイディアを3つ流用 既発表の特定物体認識手法 データベースの大きさ:  データベースの大きさ:     100万画像( 26億ベクトル) 精度: 約90% 計算時間: 約60ms メモリ使用量: 33.6GB

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

A … 提案手法: 改良1: 距離計算の導入(1) データベース Hash table A B ... R ... 特徴ベクトルを作成 字種に投票 データベース 1 2 3 4 5 6 … Hash table ID : 1 ID : 5 ID : 2 In the retrieval phase, the feature vectors of captured images are computed. And the corresponding data to the feature vectors is retrieved from the hash table, and then casts a vote for corresponding classes. Result A A B ... R ... 29

提案手法: 改良1: 距離計算の導入(2) クエリ データベース 小さい 距離計算 大きい

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

提案手法: 改良2:新たなクエリ特徴ベクトルの生成 1, 1 0, ( ) 0, 1, 新たに 生成された 二値ベクトル 1, 1 0, ( ) 1, 1, 1 0, ( ) 0, 二値ベクトル 1, 1 0, ( ) 特徴ベクトル e 閾値 e 1 2 4 3 2個まで選択 1 2 3 4 5 6 7 8 9 10 11 12 次元

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

A B A R O o … O o 提案手法: 改良3:登録データの間引き ハッシュの衝突が多いと処理時間を要する ハッシュを間引く 閾値 4 閾値 A B A R 5 O o … O o 6 7 ハッシュテーブル ハッシュのインデックス

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

実験対象 英数字が書かれた文書を3方向から撮影 1枚あたり124文字 0度 30度 45度

実験条件 最大100フォント 登録フォント数を増やし,  クラス識別率を計算した データベース 認識 認識 従来手法と 提案手法を比較 文書

クラス認識率 従来手法 精度が20%向上 精度が8%向上 認識率 (%) 提案手法 フォント数

誤認識の例 連結成分取得の失敗 結合している

1文字あたりのクラス認識時間 従来手法 処理時間を 70%削減 処理時間 (ms) 提案手法 フォント数

クラス数 1フォントで 100フォントで 55クラス 1672クラス フォント数と共に増加 増加率は徐々に減少 10フォントで 397クラス

メモリ使用量 フォント数にほぼ比例 100フォントで約4GB メモリ使用量 (GB) フォント数

目次 背景 従来手法 提案手法 実験 まとめ アフィン不変な図形の照合と高速化 分離文字の認識 姿勢推定 改良1: 距離計算の導入 改良2: 新たなクエリ特徴ベクトルの生成 改良3: 登録データの間引き 実験 まとめ

まとめ 100フォントに対応したカメラベース文字認識シ ステムの実現 100フォントを登録したときの性能(正面から) 今後の課題 テンプレートマッチングによるカメラ撮影文字の認識 100フォントを登録したときの性能(正面から) クラス認識率:98.4% 計算時間:7.2ms / 1文字 今後の課題 メモリ使用量の削減 日本語への対応

カメラ撮影文字の 事例に基づく実時間認識 岩村雅一 辻 智彦 黄瀬浩一