IIR 輪講復習 #18 Matrix decompositions and latent semantic indexing.

Slides:

Advertisements

Similar presentations

SPSSによるHosmer-Lemeshow検定について

Advertisements

レポート書き方. おしいレポートよく調べてあるそれぞれの、１文の言っていることは正しいしかし、全体として、何が言いたいのかわからない内容の重要だが、全体の構成も重要である.

７．n次の行列式　　一般的な（n次の）行列式の定義には、数学的な概念がいろいろ必要である。まずそれらを順に見ていく。

９．線形写像.

３．多項式計算アルゴリズムべき乗の計算多項式の計算.

時間的に変化する信号. 普通の正弦波は豊富な情報を含んでいませんこれだけではラジオのような複雑な情報を送れない振幅 a あるいは角速度 ω を時間的に変化させて情報を送る.

九州大学岡村研究室久保貴哉 1. 利用中のＡＰの数の推移 2 横軸：時刻縦軸：接続要求数・深夜では一分間で平均一台、昼間では平均１４台程度の接続要求をＡＰが受けている。・急にＡＰの利用者数が増えてくるのは７～８時あたり.

５．連立一次方程式.

1 情報量（２章）. 2 物理的概念との対比１（入れ物と中身）塩水塩データ情報情報の量？塩分の量！情報の量は見た目ではわからない。データと情報は異なる概念。塩分の量は見た目ではわからない。しかし、本質的なもの。

―本日の講義― ・平均と分散 -代表値 -ぱらつき(分散・標準偏差等) ・Excelによる演習

ノイズ. 雑音とも呼ばれる。（音でなくても、雑音という）入力データに含まれる、本来ほしくない成分.

この資料は、情報工学レクチャーシリーズ　オペレーティングシステム　松尾啓志　著（森北出版株式会社）を用いて授業を行うために、名古屋工業大学松尾啓志、津邑公暁が作成しました。パワーポイント2007で最終版として保存しているため、変更はできませ

広告付き価格サービス小園一正. はじめに世の中には様々な表現方法の広告があります。その中でも私たち学生にとって身近にあるものを広告媒体として取り入れられている。価格サービス（無料配布のルーズリーフ）を体験したことにより興味を惹かれるきっかけとなった。主な目的は、これ.

素数判定法 2011/6/20.

フーリエ係数の性質. どこまで足す？理想的には無限大であるが、実際にはそれは出来ないこれをフーリエ解析してみる.

公開鍵暗号系 2011/05/09.

１章　行列と行列式.

本宮市立白岩小学校. １はじめに２家庭学習プログラム開発の視点 ① 先行学習（予習）を生かした確かな学力を形成する授業づくり ② 家庭との連携を図った家庭学習の習慣化.

フーリエ級数. 一般的な波はこのように表せる a,b をフーリエ級数という比率：

3.エントロピーの性質と各種情報量.

９．通信路符号化手法１（誤り検出と誤り訂正の原理）

Excelによる積分.

1 ６．低次の行列式とその応用. 2 行列式とは行列式とは、正方行列の特徴を表す一つのスカラーである。すなわち、行列式は正方行列からスカラーに写す写像の一種とみなすこともできる。正方行列スカラー（実数）の行列に対する行列式を、次の行列式という。行列の行列式をとも表す。行列式と行列の記号.

計算のスピードアップコンピュータでも、sin、cosの計算は大変です足し算、引き算、掛け算、割り算は早いです

線形符号（１０章）.

1 ０章数学基礎. 2 ( 定義）集合集合については、３セメスタ開講の「離散数学」で詳しく扱う。集合大学では、高校より厳密に議論を行う。そのために、議論の対象を明確にする必要がある。ある “ もの ” （基本的な対象、概念）の集まりを、集合という。集合に含まれる “ もの ” を、集合の要素または元という。

10．PとNP完全問題との境界.

４．プッシュダウンオートマトンと文脈自由文法の等価性

1 ０章数学基礎. 2 ( 定義）集合集合については、３セメスタ開講の「離散数学」で詳しく扱う。集合大学では、高校より厳密に議論を行う。そのために、議論の対象を明確にする必要がある。ある “ もの ” （基本的な対象、概念）の集まりを、集合という。集合に含まれる “ もの ” を、集合の要素または元という。

人工知能特論II　第7回二宮　崇.

信号測定. 正弦波多くの場合正弦波は 0V の上下で振動するしかし、これでは AD 変換器に入れられないので、オフセットを調整してデータを取った.

1 ９．線形写像. 2 ここでは、行列の積によって、写像を定義できることをみていく。また、行列の積によって定義される写像の性質を調べていく。

通信路（７章）.

アルゴリズムとデータ構造補足資料 7-4 「単純交換ソート exsort.c 」横浜国立大学理工学部数物・電子情報系学科富井尚志.

３．プッシュダウンオートマトンと文脈自由文法

6.符号化法（６章）.

ビット. 十進数と二進数十進数  ０から９までの数字を使って０、１、２、３、４、５、６、７、８、９、１０、１１、１２と数える二進数  ０と１を使って０、１、１０、１１、１００、１０１、１１０、１１１と数える.

アルゴリズムとデータ構造補足資料14-1 「ハッシュ法」

平成22年度予算の国立大学法人関連要望事項に係るパブリックコメント説明会

3．正方行列（単位行列、逆行列、対称行列、交代行列）

様々な情報源（４章）.

プログラミング演習ＢＭＬ編第３回 2010/6/15 （コミ） 2010/6/16 （情報・知能）住井 ~sumii/class/proenb2010/ml3/

名古屋工業大学電気電子工学科岩波・岡本研究室野々村嘉人

論理回路第１回. 今日の内容論理回路とは？本講義の位置づけ，達成目標講義スケジュールと内容受講時の注意事項成績の評価方法.

Bar-TOP における光の群速度伝播の解析名古屋大学高エネルギー物理研究室松石武 (Matsuishi Takeru)

Three-Year Course Orientation International Course.

方程式を「算木」で解いてみよう! 愛媛大学教育学部平田　浩一.

Ｃ言語応用構造体.

測定における誤差 KEK 猪野隆論文は、自ら書くもの誤差は、自分で定義するものただし、この定義は、多数の人に納得してもらえるものであること.

３．多項式計算アルゴリズムべき乗の計算多項式の計算.

階層分析法. 表３．１ルートＲ1Ｒ1 Ｒ2Ｒ2 Ｒ3Ｒ3 Ｒ4Ｒ4 Ｒ5Ｒ5 Ｆ1Ｆ1 最寄駅までの所要時間（分） 10 7 Ｆ2Ｆ2 実乗車時間（分）Ｆ3Ｆ3 片道切符（円）ヶ月定期（円） 11,21011,9309,75012,46012,720.

偏微分方程式の境界値問題を基礎とするデジタル画像解析

HKS Analysis Log Jul 2006 Part1 D.Kawama. 第壱部 HKS Sieve Slit Analysis.

1 中野研究室 4 年ゼミのイロハ斉藤（修士 2 年）（ 2009 年 ”4 年ゼミのイロハ ” を参考に作りました）

1 プログラミング言語論第１３回プログラムの意味論と検証（２）表示的意味論担当：犬塚. 2 表示的意味論 denotational semantics  表示的意味論では、プログラムの要素とそれが意味するものを対応付ける。変数式文ＡＢ … Ａ＋２２Ｂ＋ＣＡ：＝Ａ＋２ if.

物体識別のための Adaboost を用いた入力特徴の評価物体識別のための Adaboost を用いた入力特徴の評価情報工学科藤吉研究室 EP02132 土屋成光.

８．任意のデータ構造（グラフの表現とアルゴリズム）

二次元、三次元空間の座標表現点のベクトル表現と行列による変換点、線、面の数理表現図形の変換投影、透視変換

メニューに戻るメニューに戻る | 前表示スライド前表示スライド G*power 3 の web ページ Windows はこちら Mac はこちらダウンロード後，実行してインストール.

第１４回プログラムの意味論と検証（３）不動点意味論担当：犬塚

実験５規則波 C0XXXX 石黒 ○○ C0XXXX 杉浦 ○○ C0XXXX 大杉 ○○ C0XXXX 高柳 ○○ C0XXXX 岡田 ○○ C0XXXX 藤江 ○○ C0XXXX 尾形 ○○ C0XXXX 足立 ○○

ことばとコンピュータ 2007 年度 1 学期第 1 回. 2 ことばとコンピュータ授業科目名：言語情報処理論授業題目名：ことばとコンピュータ履修コード： 5067 教室： 323 一学期開講授業の進め方 – 基本的に講義中心ですすめ，時々コンピュータを使う．

オセロの思考アルゴリズムについて１１０３０７２　岩間　隆浩.

音の変化を視覚化するサウンドプレイヤーの作成

本文. 考えながら読みましょう「いろいろなこと」（ 3 行目）は何ですか「①電話料金はコンビニで支払いをしています。いつでも払えますから、便利です。」「②夕食はコンビニで買います。お弁当やおかずがいろいろありますから。」今、若者に人気のあるコンビニは、いろいろなことをするのに非常に便利な場所になった。

１１万ｋｍ上空のかぐやから見た地球. デジタル信号処理 Digital Signal Processing 2010 年度春学期 Spring Semester, 2010 担当者：栗濱忠司（ Professor ）第3週第3週.

地球儀と様々な地図. 1 球体としての地球こうした現象はあることをイメージすると理解できる。

Presentation transcript:

IIR 輪講復習 #18 Matrix decompositions and latent semantic indexing

お知らせたつをさんによる補足情報復習資料おきば

参考 csli.stanford.edu/~hinrich/information- retrieval-book.html csli.stanford.edu/~hinrich/information- retrieval-book.html 本資料は書籍の輪読会に向けたサマリ本資料内で一部上記ドキュメント, スライドからの引用あり

本章のテーマ行列の特異値分解 (Singular value decompositions, SVD) 潜在的意味インデキシング (Latent semantic indexing, LSI)

単語文書行列単語文書行列 C 情報検索アルゴリズムのキモ M 単語 ( 辞書 ) 、 N 文書 → M 次元, N 列内積計算 → スコアリング IIR これまで (7 章 ) スパースであることを利用して枝狩り転置インデックスが利用できる

LSI は何がしたいか C をより小さな行列 C k に近似したいどのように近似 ? → C と C k の二乗誤差を最小になぜ ? 次元を「削減」することで計算量を下げる次元を「縮退」させることで適合度を上げる car で automobile を検索

次元の削減行列 C の次元･･･単語 × 要らない次元 ( 行 ) をいきなり削る ○ 似たような次元 ( 行 ) をまとめてから要らない次元を捨てるどうやって ? 行列の特異値分解 (SVD)

固有値と次元の重み

固有値 (eigenvalue) Ax = λx x はベクトル λ ･･･固有値, x ･･･固有ベクトル特性方程式 |A - λI| = 0 により算出写像 A により方向を変えないベクトル固有値、固有ベクトル便利な数学的性質を多数持つ行列の対角化 → A n, 量子力学, 主成分分析, PageRank, HITS etc その行列の性質をよく表現する値, ベクトルであり、行列を分解するのにも使える。にも関わらず、行列自身がそれを内包しているところが面白い

固有値と次元の重み λ 1 = 30, λ 2 = 20, λ 3 = 1 固有値, 固有ベクトル固有ベクトルどうしは一次独立。例として、適当なベクトル v は固有ベクトルの線形結合で以下のように表せる

固有値と次元の重み ( 続き ) 固有ベクトルの線形結合で表現した v を S で写像してみる (ちなみにλ 1 = 30, λ 2 = 20, λ 3 = 1) S による写像において、相対的に小さな固有値に対応する固有ベクトル (ここではx 3 )の次元の影響が小さいことが分かる

固有値と次元の重み ( 続き ) 小さな固有値に対応した固有ベクトルの次元は行列の性質に与える影響が小さい行列を固有ベクトルで表現、すなわち基底を固有ベクトルに変更できれば、小さな固有値の次元を無視することで近似できるそこで固有値による行列分解 S = UΛU -1

SVD

M ≠ N 行列を分解したい固有値分解で次元削減の手がかりが得られる、しかし固有値分解は正方行列 (M = N) にしか利用できない単語文書行列は多くの場合 M ≠ N M ≠ N でも固有値絡みで行列を分解できないか → SVD C = UΣV T

SVD 任意の行列 C に対して C = UΣV T U = CC t の固有ベクトルを列とする行列 V = C t C の固有ベクトルを列とする行列 CCt, CtC ･･･自己相関行列 U, V は自己相関行列 = 対称行列から求めた固有ベクトルを成分にしている。対称行列の固有ベクトルは固有ベクトル同士で必ず直交するので U, V は直交行列 Σ は特異値 σ ij = (λ ij ) 1/2 を対角成分とする対角行列固有値分解によく似たかたち σ は U, V t を構成するベクトルの「基底としての重み」を表している σ の値に従って次元を削減できる

SVD による行列の低階数近似 C = UΣV t の Σ を構成する σ ij のうち、値が小さな物を 0 にするランク ( 階数 ) が下がる = 基底の数が減る Σ → Σ k C k = UΣ k V t 重要な基底だけを残して小さな行列に近似したことになる C k の近似の妥当性 σ の値による低階数近似は C と C k の二乗誤差 ( フロベニウスノルム ) を最小化することが知られている

SVD は何をしているのか 1.C の行ベクトルの張る空間の正規直交基底と、列ベクトルの張る空間の正規直交基底を同時に求めている 2. データを表現するのに最適な基底として自己相関行列の固有ベクトルを求めている U と V t さらに各基底の重要度を特異値 σ が与える単語文書行列の SVD → 文書を表現するの最適な正規直交基底と単語を表現するのに最適な正規直交基底を同時に求めている

単語文書行列の SVD による次元圧縮 Latent semantic indexing SVD で小さくした C k にいつもの内積計算など単語文書行列を SVD したときに使った CC t, C t C は単語の共起、文書の共起基底を固有ベクトルに変更したことで、 SVD は似たような共起をする単語, 文書の次元を一つにまとめたことになるゆえに、小さな行列に近似したにも関わらず適合率が向上する

主成分分析と SVD ※『情報検索アルゴリズム』より

主成分分析と SVD 主成分分析･･･多変量解析基底を変換して情報量の多い軸で変量を解析する l 2 軸は無視できる!

主成分分析と SVD ( 続き ) 主成分分析の基底の求め方特定の次元を削減したときに情報量を損なわないように情報量を損なわない = 情報量を最大にする情報量最大 = データの分散が大きくなる基底を選ぶデータの分散を考えたい → 共分散行列を利用する

主成分分析と SVD ( 続き ) 共分散行列対角成分が分散、それ以外が共分散 (μ i は次元 i 番目の平均, D が単語文書行列, S が共分散行列)

主成分分析と SVD ( 続き ) 共分散行列を固有値分解する S は (D - M)(D - M) T → 対称行列 S = UΛU T 分解により得られた行列 U への写像固有ベクトルが各列･･･固有空間への写像元々のデータを U に写像して ( 固有ベクトルの張る固有空間への基底変換 ) から共分散行列 S ' を求めてみる d = Ud' → U -1 d = U -1 Ud' → U -1 d = Ud' → U t d = d' → d' = U t d S' = U T SU = Λ

主成分分析と SVD ( 続き ) 固有空間へ写像したデータの共分散行列が Λ Λ は対角行列 → Λ の対角成分は固有値共分散行列の対角成分は分散、それ以外が共分散 → 共分散行列の固有値 = 分散 ! 基底を固有ベクトルに変換してから、対応する固有値が大きな次元を扱うことは、分散が大きな次元を扱っていることに等しい固有ベクトル = 主成分

主成分分析と SVD ( 続き ) 共分散行列は自己相関行列 (D - M)(D - M) T 自己相関行列･･･自分自身の転置との積 AA T データを表現するのに最適な基底として自己相関行列の固有ベクトルを求めている → SVD と同じ主成分分析と SVD は本質的に等価な技術

まとめ大きな固有値に対応した固有ベクトルは、その固有ベクトルが張る空間において重要な基底になる基底を固有ベクトルへ変更し、固有値の大きい次元を考えられるようにするのが SVD や主成分分析自己相関行列が共起を表しているため、固有値の大きな基底は似たような次元をまとめたものとみなせる = 情報量が大きい次元への " 縮約 " 単語文書行列を SVD により低階数近似すると計算量が減り、適合率が向上する･･･ LSI

参考文献北研二, 津田和彦, 獅子堀正幹『情報検索アルゴリズム』, 共立出版, 2002 金谷健一『これなら分かる応用数学教室 ― 最小二乗法からウェーブレットまで』, 共立出版, 2003