IIR 輪講復習 #18 Matrix decompositions and latent semantic indexing.

Slides:



Advertisements
Similar presentations
SPSSによるHosmer-Lemeshow検定について
Advertisements

レポート書き方. おしいレポート よく調べてある それぞれの、1文の言っていることは正 しい しかし、全体として、何が言いた いのかわからない 内容の重要だが、全体の構成も重 要である.
7.n次の行列式   一般的な(n次の)行列式の定義には、数学的な概念がいろいろ必要である。まずそれらを順に見ていく。
9.線形写像.
3.多項式計算アルゴリズム べき乗の計算 多項式の計算.
時間的に変化する信号. 普通の正弦波 は豊富な情報を含んでいません これだけではラジオのような複雑な情報 を送れない 振幅 a あるいは角速度 ω を時間的に変化 させて情報を送る.
九州大学 岡村研究室 久保 貴哉 1. 利用中のAPの数の推移 2 横軸:時刻 縦軸:接続要求数 ・深夜では一分間で平均一台、 昼間では平均14台程度の接続 要求をAPが受けている。 ・急にAPの利用者数が増えてく るのは7~8時あたり.
5.連立一次方程式.
相関.
1 情報量(2章). 2 物理的概念との対比1(入れ物と中 身) 塩水 塩 データ 情報 情報の量? 塩分の量! 情報の量は見た目ではわ からない。データと情報 は異なる概念。 塩分の量は見た目 ではわからない。 しかし、本質的な もの。
―本日の講義― ・平均と分散 -代表値 -ぱらつき(分散・標準偏差等) ・Excelによる演習
ノイズ. 雑音とも呼ばれる。(音でなくても、雑 音という) 入力データに含まれる、本来ほしくない 成分.
この資料は、情報工学レクチャーシリーズ オペレー ティングシステム 松尾啓志 著(森北出版株式会 社)を用いて授業を行うために、名古屋工業大学松 尾啓志、津邑公暁が作成しました。 パワーポイント2007で最終版として保存しているため、変更はできませ
広告付き価格サービ ス 小園一正. はじめに 世の中には様々な表現方法の広告があり ます。その中でも私たち学生にとって身 近にあるものを広告媒体として取り入れ られている。 価格サービス(無料配布のルーズリー フ)を体験したことにより興味を惹かれ るきっかけとなった。主な目的は、これ.
素数判定法 2011/6/20.
フーリエ係数の性質. どこまで足す? 理想的には無限大であるが、実際に はそれは出来ない これをフーリエ解析してみる.
公開鍵暗号系 2011/05/09.
1章 行列と行列式.
本宮市立白岩小学校. 1 はじめに 2 家庭学習プログラム開発の視点 ① 先行学習(予習)を生かした 確かな学力を形成する授業づく り ② 家庭との連携を図った家庭学習の習慣化.
フーリエ級数. 一般的な波はこのように表せる a,b をフーリエ級数とい う 比率:
3.エントロピーの性質と各種情報量.
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
Excelによる積分.
1 6.低次の行列式とその応用. 2 行列式とは 行列式とは、正方行列の特徴を表す一つのスカ ラーである。すなわち、行列式は正方行列からスカ ラーに写す写像の一種とみなすこともできる。 正方行列 スカラー(実数) の行列に対する行列式を、 次の行列式という。 行列 の行列式を とも表す。 行列式と行列の記号.
計算のスピードアップ コンピュータでも、sin、cosの計算は大変です 足し算、引き算、掛け算、割り算は早いです
線形符号(10章).
1 0章 数学基礎. 2 ( 定義)集合 集合については、 3セメスタ開講の「離散数学」で詳しく扱う。 集合 大学では、高校より厳密に議論を行う。そのために、議論の 対象を明確にする必要がある。 ある “ もの ” (基本的な対象、概念)の集まりを、 集合という。 集合に含まれる “ もの ” を、集合の要素または元という。
10.PとNP完全問題との境界.
複素数.
4.プッシュダウンオートマトンと 文脈自由文法の等価性
1 0章 数学基礎. 2 ( 定義)集合 集合については、 3セメスタ開講の「離散数学」で詳しく扱う。 集合 大学では、高校より厳密に議論を行う。そのために、議論の 対象を明確にする必要がある。 ある “ もの ” (基本的な対象、概念)の集まりを、 集合という。 集合に含まれる “ もの ” を、集合の要素または元という。
人工知能特論II 第7回 二宮 崇.
信号測定. 正弦波 多くの場合正弦波は 0V の上下で振動する しかし、これでは AD 変換器に入れら れないので、オフ セットを調整して データを取った.
1 9.線形写像. 2 ここでは、行列の積によって、写像を 定義できることをみていく。 また、行列の積によって定義される写 像の性質を調べていく。
通信路(7章).
アルゴリズムとデータ構造 補足資料 7-4 「単純交換ソート exsort.c 」 横浜国立大学 理工学部 数物・電子情報系学科 富井尚志.
3.プッシュダウンオートマトンと 文脈自由文法
6.符号化法(6章).
ビット. 十進数と二進数 十進数  0から9までの数字を使って 0、1、2、3、4、5、6、7、8、9、 10、11、12 と数える 二進数  0と1を使って 0、1、10、11、100、101、11 0、111 と数える.
アルゴリズムとデータ構造 補足資料14-1 「ハッシュ法」
平成22年度予算の国立大学法人関連要望事項に係るパブリックコメント説明会
正弦波.
3.正方行列(単位行列、逆行列、対称行列、交代行列)
様々な情報源(4章).
プログラミング演習B ML編 第3回 2010/6/15 (コミ) 2010/6/16 (情報・知能) 住井 ~sumii/class/proenb2010/ml3/
名古屋工業大学 電気電子工学科 岩波・岡本研究室 野々村嘉人
論理回路 第1回. 今日の内容 論理回路とは? 本講義の位置づけ,達成目標 講義スケジュールと内容 受講時の注意事項 成績の評価方法.
Bar-TOP における光の 群速度伝播の解析 名古屋大学 高エネルギー物理研究室 松石 武 (Matsuishi Takeru)
Three-Year Course Orientation International Course.
方程式を「算木」で 解いてみよう! 愛媛大学 教育学部 平田 浩一.
C言語応用 構造体.
測定における誤差 KEK 猪野 隆 論文は、自ら書くもの 誤差は、自分で定義するもの ただし、この定義は、 多数の人に納得してもらえるものであること.
3.多項式計算アルゴリズム べき乗の計算 多項式の計算.
階層分析法. 表3. 1 ルートR1R1 R2R2 R3R3 R4R4 R5R5 F1F1 最寄駅までの所要 時間(分) 10 7 F2F2 実乗車時間(分) F3F3 片道切符(円) ヶ月定期(円) 11,21011,9309,75012,46012,720.
偏微分方程式の境界値問題を 基礎とするデジタル画像解析
HKS Analysis Log Jul 2006 Part1 D.Kawama. 第壱部 HKS Sieve Slit Analysis.
1 中野研究室 4 年ゼミのイロハ 斉藤(修士 2 年) ( 2009 年 ”4 年ゼミのイロハ ” を参考に作りました)
1 プログラミング言語論 第13回 プログラムの意味論と検証 (2) 表示的意味論 担当:犬塚. 2 表示的意味論 denotational semantics  表示的意味論では、プログラムの要素とそれが 意味するものを対応付ける。 変数 式 文 A B … A+2 2B+C A:=A+2 if.
物体識別のための Adaboost を用いた入力特徴の評価 物体識別のための Adaboost を用いた 入力特徴の評価 情報工学科 藤吉研究室 EP02132 土屋成光.
8.任意のデータ構造 (グラフの表現とアルゴリズム)
二次元、三次元空間の座標表現 点のベクトル表現と行列による変換 点、線、面の数理表現 図形の変換 投影、透視変換
メニューに戻る メニューに戻る | 前表示スライド 前表示スライド G*power 3 の web ページ Windows はこちら Mac はこちら ダウンロード後,実行してインストール.
第14回 プログラムの意味論と検証(3) 不動点意味論 担当:犬塚
実験5 規則波 C0XXXX 石黒 ○○ C0XXXX 杉浦 ○○ C0XXXX 大杉 ○○ C0XXXX 高柳 ○○ C0XXXX 岡田 ○○ C0XXXX 藤江 ○○ C0XXXX 尾形 ○○ C0XXXX 足立 ○○
ことばとコンピュータ 2007 年度 1 学期 第 1 回. 2 ことばとコンピュータ 授業科目名:言語情報処理論 授業題目名:ことばとコンピュータ 履修コード: 5067 教室: 323 一学期開講 授業の進め方 – 基本的に講義中心ですすめ,時々コンピュー タを使う.
オセロの思考アルゴリズムについて 1103072 岩間 隆浩.
音の変化を視覚化する サウンドプレイヤーの作成
本文. 考えながら読みましょ う 「いろいろなこと」( 3 行目)は何で すか 「①電話料金はコンビニで支払いをしていま す。いつでも払えますから、便利です。」 「②夕食はコンビニで買います。お弁当やお かずがいろいろありますから。」今、若者に 人気のあるコンビニは、いろいろなことをす るのに非常に便利な場所になった。
11万km上空のかぐやから見た地球. デジタル信号処理 Digital Signal Processing 2010 年度春学期 Spring Semester, 2010 担当者: 栗濱 忠司( Professor ) 第3週第3週.
地球儀と様々な地図. 1 球体としての地球 こうした現象はあることをイ メージすると理解できる。
Presentation transcript:

IIR 輪講復習 #18 Matrix decompositions and latent semantic indexing

お知らせ たつをさんによる補足情報 復習資料おきば

参考 csli.stanford.edu/~hinrich/information- retrieval-book.html csli.stanford.edu/~hinrich/information- retrieval-book.html 本資料は書籍の輪読会に向けたサマリ 本資料内で一部上記ドキュメント, スライド からの引用あり

本章のテーマ 行列の特異値分解 (Singular value decompositions, SVD) 潜在的意味インデキシング (Latent semantic indexing, LSI)

単語文書行列 単語文書行列 C 情報検索アルゴリズムのキモ M 単語 ( 辞書 ) 、 N 文書 → M 次元, N 列 内積計算 → スコアリング IIR これまで (7 章 ) スパースであることを利用して枝狩り 転置インデックスが利用できる

LSI は何がしたいか C をより小さな行列 C k に近似したい どのように近似 ? → C と C k の二乗誤差を最 小に なぜ ? 次元を「削減」することで計算量を下げる 次元を「縮退」させることで適合度を上げる car で automobile を検索

次元の削減 行列 C の次元 ・・・ 単語 × 要らない次元 ( 行 ) をいきなり削る ○ 似たような次元 ( 行 ) をまとめてから要らな い次元を捨てる どうやって ? 行列の特異値分解 (SVD)

固有値と次元の重み

固有値 (eigenvalue) Ax = λx x はベクトル λ ・・・ 固有値, x ・・・ 固有ベクトル 特性方程式 |A - λI| = 0 により算出 写像 A により方向を変えないベクトル 固有値、固有ベクトル 便利な数学的性質を多数持つ 行列の対角化 → A n, 量子力学, 主成分分析, PageRank, HITS etc その行列の性質をよく表現する値, ベクトルであり、 行列を分解するのにも使える。にも関わらず、行列 自身がそれを内包しているところが面白い

固有値と次元の重み λ 1 = 30, λ 2 = 20, λ 3 = 1 固有値, 固有ベクトル 固有ベクトルどうしは一次独立。例として、適当なベクトル v は固有 ベクトルの線形結合で以下のように表せる

固有値と次元の重み ( 続き ) 固有ベクトルの線形結合で表現した v を S で写像してみる (ちなみにλ 1 = 30, λ 2 = 20, λ 3 = 1) S による写像において、相対的に小さな固有値に対応する固有ベクト ル (ここではx 3 )の次元の影響が小さいことが分かる

固有値と次元の重み ( 続き ) 小さな固有値に対応した固有ベクトルの 次元は行列の性質に与える影響が小さい 行列を固有ベクトルで表現、すなわち基 底を固有ベクトルに変更できれば、小さ な固有値の次元を無視することで近似で きる そこで固有値による行列分解 S = UΛU -1

SVD

M ≠ N 行列を分解したい 固有値分解で次元削減の手がかりが得ら れる、しかし固有値分解は正方行列 (M = N) にしか利用できない 単語文書行列は多くの場合 M ≠ N M ≠ N でも固有値絡みで行列を分解でき ないか → SVD C = UΣV T

SVD 任意の行列 C に対して C = UΣV T U = CC t の固有ベクトルを列とする行列 V = C t C の固有ベクトルを列とする行列 CCt, CtC ・・・ 自己相関行列 U, V は自己相関行列 = 対称行列から求めた固有ベクトルを 成分にしている。対称行列の固有ベクトルは固有ベクトル同 士で必ず直交するので U, V は直交行列 Σ は特異値 σ ij = (λ ij ) 1/2 を対角成分とする対角行列 固有値分解によく似たかたち σ は U, V t を構成するベクトルの「基底としての重 み」を表している σ の値に従って次元を削減できる

SVD による行列の低階数近似 C = UΣV t の Σ を構成する σ ij のうち、値が小さな 物を 0 にする ランク ( 階数 ) が下がる = 基底の数が減る Σ → Σ k C k = UΣ k V t 重要な基底だけを残して小さな行列に近似したことになる C k の近似の妥当性 σ の値による低階数近似は C と C k の二乗誤差 ( フロ ベニウスノルム ) を最小化することが知られている

SVD は何をしているのか 1.C の行ベクトルの張る空間の正規直交基底と、 列ベクトルの張る空間の正規直交基底を同時に 求めている 2. データを表現するのに最適な基底として自己相 関行列の固有ベクトルを求めている U と V t さらに各基底の重要度を特異値 σ が与える 単語文書行列の SVD → 文書を表現するの最適 な正規直交基底と単語を表現するのに最適な正 規直交基底を同時に求めている

単語文書行列の SVD による次元圧縮 Latent semantic indexing SVD で小さくした C k にいつもの内積計算な ど 単語文書行列を SVD したときに使った CC t, C t C は単語の共起、文書の共起 基底を固有ベクトルに変更したことで、 SVD は似たような共起をする単語, 文書の次元を 一つにまとめたことになる ゆえに、小さな行列に近似したにも関わらず 適合率が向上する

主成分分析と SVD ※『情報検索アルゴリズム』より

主成分分析と SVD 主成分分析 ・・・ 多変量解析 基底を変換して情報量の多い軸で変量を 解析する l 2 軸は無視できる!

主成分分析と SVD ( 続き ) 主成分分析の基底の求め方 特定の次元を削減したときに情報量を損なわ ないように 情報量を損なわない = 情報量を最大にする 情報量最大 = データの分散が大きくなる基底 を選ぶ データの分散を考えたい → 共分散行列を利 用する

主成分分析と SVD ( 続き ) 共分散行列 対角成分が分散、それ以外が共分散 (μ i は次元 i 番目の平均, D が単語文書行列, S が共分散 行列)

主成分分析と SVD ( 続き ) 共分散行列を固有値分解する S は (D - M)(D - M) T → 対称行列 S = UΛU T 分解により得られた行列 U への写像 固有ベクトルが各列 ・・・ 固有空間への写像 元々のデータを U に写像して ( 固有ベクトルの 張る固有空間への基底変換 ) から共分散行列 S ' を 求めてみる d = Ud' → U -1 d = U -1 Ud' → U -1 d = Ud' → U t d = d' → d' = U t d S' = U T SU = Λ

主成分分析と SVD ( 続き ) 固有空間へ写像したデータの共分散行列が Λ Λ は対角行列 → Λ の対角成分は固有値 共分散行列の対角成分は分散、それ以外が共分散 → 共分散行列の固有値 = 分散 ! 基底を固有ベクトルに変換してから、対応する 固有値が大きな次元を扱うことは、分散が大き な次元を扱っていることに等しい 固有ベクトル = 主成分

主成分分析と SVD ( 続き ) 共分散行列は自己相関行列 (D - M)(D - M) T 自己相関行列 ・・・ 自分自身の転置との積 AA T データを表現するのに最適な基底として自己 相関行列の固有ベクトルを求めている → SVD と同じ 主成分分析と SVD は本質的に等価な技術

まとめ 大きな固有値に対応した固有ベクトルは、その 固有ベクトルが張る空間において重要な基底に なる 基底を固有ベクトルへ変更し、固有値の大きい 次元を考えられるようにするのが SVD や主成分 分析 自己相関行列が共起を表しているため、固有値の大 きな基底は似たような次元をまとめたものとみなせ る = 情報量が大きい次元への " 縮約 " 単語文書行列を SVD により低階数近似すると計 算量が減り、適合率が向上する ・・・ LSI

参考文献 北研二, 津田和彦, 獅子堀正幹 『情報検索 アルゴリズム』, 共立出版, 2002 金谷健一『これなら分かる応用数学教室 ― 最小二乗法からウェーブレットまで』, 共 立出版, 2003