Power Iteration Clustering Speaker: Xiaofei Di 2010.10.11.

Slides:



Advertisements
Similar presentations
Author Name Disambiguation for Citations Using Topic and Web Correlation Citation : a collection of: coauthor, title, venue, topic, and Web attributes.
Advertisements

Chapter 9 Approximating Eigenvalues
Using EAP-SIM for WLAN Authentication
Power Iteration Clustering Frank Lin and William W. Cohen School of Computer Science, Carnegie Mellon University ICML , Haifa, Israel.
数据挖掘实验 1 Apriori 算法编程实现. 数据挖掘实验一 (20’) 实验目的:了解关联规则在数据挖掘中的 应用,理解和掌握关联挖掘的经典算法 Apriori 算法的基本原理和执行过程并完成程 序设计。 实验内容:对给定数据集用 Apriori 算法进行 挖掘,找出其中的频繁集并生成关联规则。
HistCite 结果分析示例 罗昭锋. By:SC 可能原因:文献年度过窄,少有相互引用.
位置相关查询处理 研究背景及意义 移动计算、无线通信以及定位技术的快速发展,使 得位置相关的查询处理及基于位置的信息服务技术 已经成为一个热点研究领域 。 大量的应用领域 ( 如地理信息系统、智能导航、交 通管制、天气预报、军事、移动电子商务等 ) 均迫 切需要有效地查询这些数据对象。
A Very Fast Method for Clustering Big Text Datasets Frank Lin and William W. Cohen School of Computer Science, Carnegie Mellon University ECAI ,
计算机 在分析化学的应用 ( 简介 ) 陈辉宏. 一. 概述 信息时代的来临, 各门学科的研究方法都 有了新的发展. 计算机的介入, 为分析化学的进展提供了 一种更方便的研究方法.
编译程序 构造原理和实现技术 授课教师:吕江花. 第一章 编译程序概述 主要内容: 几个基本概念 编译器的工作过程概述 编译器各个阶段的功能描述 编译程序的实现途径.
主要内容  LR(0) 分析. 0 S→  E # E→  E+T E→  T T→  id T→  ( E ) 1 S→E  # E→E  +T 5 T→id  3 E→E+  T T→  id T→  (E) 4 E→E+T  9 E→T  6 T→(  E) E→
地理信息系统概述. 数据和信息 (Data & Information) 数据 原始事实 如:员工姓名, 数据可以有数值、图形、声音、视觉数据等 信息 以一定规则组织在一起的事实的集合。
第 4 章 抽象解释 内容概述 以一种独立于编程语言的方式,介绍抽象解释的 一些本质概念 – 将 “ 程序分析对语言语义是正确的 ” 这个概念公式 化 – 用 “ 加宽和收缩技术 ” 来获得最小不动点的较好的 近似,并使所需计算步数得到限制 – 用 “ 伽罗瓦连接和伽罗瓦插入 ” 来把代价较大的属 性空间用代价较小的属性空间来代替.
东南大学 吴健雄实验室. 第三节 序列多重比对 目的: 发现多个序列的共性 发现与结构和功能相关的保守序列片段 设:有 k 个序列 s 1, s 2,...,s k ,每个序列由同一个 字母表中的字符组成, k 大于 2 。 通过插入操作,使得各序列达到一样的长度。
Viterbi 算法 viterbi 实验要求:见 experiment3.doc – 将 TRUNC_LENGTH 取值为 4 , 8 , 16 , 32 , 64 ,看看程序运行结果会有什么变化并分析原 因。 – 将 NUMSIM 取值为 10 1 , 10.
2.1 结构上的作用 作用及作用效应 作用的分类 荷载分类及荷载代表值.
1 为了更好的揭示随机现象的规律性并 利用数学工具描述其规律, 有必要引入随 机变量来描述随机试验的不同结果 例 电话总机某段时间内接到的电话次数, 可用一个变量 X 来描述 例 检测一件产品可能出现的两个结果, 也可以用一个变量来描述 第五章 随机变量及其分布函数.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 6 章 解线性方程组的迭代法 直接法得到的解是理论上准确的,但是我们可以看得出, 它们的计算量都是 n 3 数量级,存储量为 n 2 量级,这在.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章 曲线拟合的最小二乘法 给出一组离散点,确定一个函数逼近原函数,插值是这样 的一种手段。在实际中,数据不可避免的会有误差,插值函 数会将这些误差也包括在内。
第三章 组合逻辑电路设计 §3-1 集成逻辑电路的电气特性 §3-2 常用组合逻辑模块 §3-3 组合电路的设计方法 §3-4 险象与竞争 §3-5 小结 组合逻辑电路: 输出仅和当前的输入有关。
第十一章 曲线回归 第一节 曲线的类型与特点 第二节 曲线方程的配置 第三节 多项式回归.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章 曲线拟合的最小二乘法 给出一组离散点,确定一个函数逼近原函数,插值是这样的一种手段。 在实际中,数据不可避免的会有误差,插值函数会将这些误差也包括在内。
1 第 7 章 专家控制系统 概述 专家系统的起源与发展 专家系统的一般结构 专家系统的知识表示和获取 专家系统的特点及分类.
流态化 概述 一、固体流态化:颗粒物料与流动的流体接触,使颗粒物料呈类 似于流体的状态。 二、流态化技术的应用:流化催化裂化、吸附、干燥、冷凝等。 三、流态化技术的优点:连续化操作;温度均匀,易调节和维持; 气、固间传质、传热速率高等。 四、本章基本内容: 1. 流态化基本概念 2. 流体力学特性 3.
量子化学 第四章 角动量与自旋 (Angular momentum and spin) 4.1 动量算符 4.2 角动量阶梯算符方法
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 5 章 解线性方程组的直接法 实际中,存在大量的解线性方程组的问题。很多数值方 法到最后也会涉及到线性方程组的求解问题:如样条插值的 M 和.
在发明中学习 线性代数 概念的引入 李尚志 中国科学技术大学. 随风潜入夜 : 知识的引入 之一、线性方程组的解法 加减消去法  方程的线性组合  原方程组的解是新方程的解 是否有 “ 增根 ” ?  互为线性组合 : 等价变形  初等变换  高斯消去法.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 7 章 矩阵的特征值和特征向量 很多工程计算中,会遇到特征值和特征向量的计算,如: 机械、结构或电磁振动中的固有值问题;物理学中的各种临界 值等。这些特征值的计算往往意义重大。
第一节 相图基本知识 1 三元相图的主要特点 (1)是立体图形,主要由曲面构成; (2)可发生四相平衡转变; (3)一、二、三相区为一空间。
量子力学教程 ( 第二版 ) 3.4 连 续 谱 本 征 函 数 的 归 一 化 连续谱本征函数是不能归一化的 一维粒子的动量本征值为的本征函数 ( 平面波 ) 为 可以取 中连续变化的一切实数值. 不难看出,只要则 在量子力学中, 坐标和动量的取值是连续变化 的 ; 角动量的取值是离散的.
第 3 章 控制流分析 内容概述 – 定义一个函数式编程语言,变量可以指称函数 – 以 dynamic dispatch problem 为例(作为参数的 函数被调用时,究竟执行的是哪个函数) – 规范该控制流分析问题,定义什么是可接受的控 制流分析 – 定义可接受分析在语义模型上的可靠性 – 讨论分析算法.
第二十二讲 第七章 第二节 窗函数法设计 FIR 滤波. 学习目标  理解窗函数法设计 FIR 滤波器的思路  了解吉布斯效应  了解各种窗函数  掌握窗函数的设计方法.
周期信号的傅里叶变换. 典型非周期信号 ( 如指数信号, 矩形信号等 ) 都是满足绝对可 积(或绝对可和)条件的能量信号,其傅里叶变换都存在, 但绝对可积(或绝对可和)条件仅是充分条件, 而不是必 要条件。引入了广义函数的概念,在允许傅里叶变换采用 冲激函数的前提下, 使许多并不满足绝对可积条件的功率.
第八章:网络地理信息系统  第一节:计算机网络基础. 第二节:网络地理信息系统组合 方式  全集中式  数据集中式  功能集中式  全分布式  函数库服务器.
报告人:黄磊 缓冲溶液的积分缓冲容量. 缓冲指数的概念是 Vanslyke 在 1922 年提出 的,意义是当缓冲溶液改变一个单位时需 加入酸碱物质的量 即 这里的缓冲指数指的是微分缓冲容量,是 加酸碱物质的量随着 pH 值的变化率 1 ,微分缓冲容量.
 符号表  标识符的作用: 声明部分:定义了各种对象及对应的属性和 使用规则。 程序体:对所定义的对象进行各种操作。 $ididname IdnameAttributeIR  必要性 Token : 新表-符号表(种类、类型等信息):
模式识别 – 成分分析与核函数 第八章 成分分析与核函数. 模式识别 – 成分分析与核函数 8.0 问题的提出 降低特征维数 : Dimension Reduction  提高泛化能力:减少模型的参数数量;  减少计算量: 主要方法: 1. 主成分分析 (PCA): Principle Component.
首 页 首 页 上一页 下一页 本讲内容本讲内容 视图,剖视图(Ⅰ) 复习: P107 ~ P115 作业: P48(6-2,6-4), P49( 去 6-6) P50, P51(6-13), P52 P50, P51(6-13), P52 P53 (6-18,6-20) P53 (6-18,6-20)
演化博弈中个体的 惰性对合作行为的 影响 报告人:刘润然 中国科学技术大学 指导老师:汪秉宏教授.
《 UML 分析与设计》 交互概述图 授课人:唐一韬. 知 识 图 谱知 识 图 谱知 识 图 谱知 识 图 谱.
Graph Data Management Lab, School of Computer Science Put conference information here: The 12-th International Conference.
Clustering Very Large Multi- dimensional Datasets with MapReduce 蔡跳.
LARS : A Location-Aware Recommender System ICDE ‘12 1.
Chapter 8 Algorithms. Understand the concept of an algorithm. Define and use the three constructs for developing algorithms: sequence, decision, and repetition.
第 7 章说明 经典的单方程计量经济学模型理论与方法,限于常参数、 线性、揭示变量之间因果关系的单方程模型,被解释变量 是连续的随机变量,其抽样是随机和不受限制的,在模型 估计过程中或者只利用时间序列样本,或者只利用截面数 据样本,主要依靠对经济理论和行为规律的理解确定模型 的结构形式。 本章中,将讨论几种扩展模型,主要包括将被解释变量抽.
§10.2 对偶空间 一、对偶空间与对偶基 二、对偶空间的有关结果 三、例题讲析.
A rational function is by definition the quotient of two polynomial functions, which has the following form: §4 有理函数的积分 Integration of Rational Function.
Chapter 5 Database and Data Warehouse Unit 1 An Introduction to Database.
认识图形(一) 绿色圃中小学教育网 一、依据情境,导入新课 交流:你都收集到哪些物体了,跟小伙伴说一说。 这些都是我收集的! 快说说它们都是什么 形状的物体 !
表单自定义 “ 表单自定义 ” 功能是用于制作表单的 工具,用数飞 OA 提供的表单自定义 功能能够快速制作出内容丰富、格 式规范、美观的表单。
A General and Scalable Approach to Mixed Membership Clustering Frank Lin ∙ William W. Cohen School of Computer Science ∙ Carnegie Mellon University December.
Cao Mengfei Semantic Analysis Recognition Spectrum- based spectrum corresponden ce linprog-basedclustering Ⅰ. Warm-ups: Ⅱ. abstract Ⅲ. a special.
力的合成 力的合成 一、力的合成 二、力的平行四边形 上一页下一页 目 录 退 出. 一、力的合成 O. O. 1. 合力与分力 我们常常用 一个力来代替几个力。如果这个 力单独作用在物体上的效果与原 来几个力共同作用在物体上的效 果完全一样,那么,这一个力就 叫做那几个力的合力,而那几个 力就是这个力的分力。
第四章 不定积分. 二、 第二类换元积分法 一、 第一类换元积分法 4.2 换元积分法 第二类换元法 第一类换元法 基本思路 设 可导, 则有.
逻辑设计基础 1 第 7 章 多级与(或)非门电路 逻辑设计基础 多级门电路.
“ 百链 ” 云图书馆. 什么是百链云图书馆?1 百链云图书馆的实际效果?2 百链云图书馆的实现原理?3 百链云图书馆的价值?44 图书馆要做什么?55 提 纲.
第五章 特征值与特征向量 —— 幂法 /* Power Method */ 计算矩阵的主特征根及对应的特征向量 Wait a second, what does that dominant eigenvalue mean? That is the eigenvalue with the largest.
一、城市化的含义 二、世界城市化的进程 三、发达国家与发展中国家城市化 1. 城市化 向城市地区集聚 地区转变为城市地区 人口 乡村 2. 城市化的主要标志 : 城市人口增加 城市人口在总人口中的比重上升 城市用地规模扩大 3. 城市化的其他表现 城市化的含义.
Linear Algebra 线性代数. Linear Algebra Chapter 1 Linear Equations 线性方程(组) Chapter 2 Matrix Algebra 矩阵代数 Chapter 3 Determinants 行列式 Chapter 4 Vector Spaces.
三相交流变频调速实验箱 武船集团技工学校 武船集团技工学校 熊 跃 熊 跃. 三相交流变频调速实验箱评审结论 “ 变频器控制及执行机构应用研究 ” 依照计划书和立题报告的内容,按节点要求完成了该装置的设计 制造与调试。填补了本单位相关调速实验设备在具体设计、安装、调试和应用研究方面的技术空白。 该装置可完成变频器的常用控制实验和其它应用模拟实验研究。在设计、组装、调试和应用功能研.
半年工作小结 报告人:吕小惠 2011 年 8 月 25 日. 报告提纲 一.学习了 Non-negative Matrix Factorization convergence proofs 二.学习了 Sparse Non-negative Matrix Factorization 算法 三.学习了线性代数中有关子空间等基础知.
§5.6 利用希尔伯特 (Hilbert) 变换 研究系统的约束特性 希尔伯特变换的引入 可实现系统的网络函数与希尔伯特变换.
A Tutorial on Spectral Clustering Ulrike von Luxburg Max Planck Institute for Biological Cybernetics Statistics and Computing, Dec. 2007, Vol. 17, No.
北大法意数据库应用. 讲座提要大纲 法律专业能力 法律实践 法律信息检索能力 互联网 法律信息检索能力是法律专业人士的核心能力之一 美国律师协会( ABA )把它明确规定在律师的工 作规范和职业道德中.
Generation of Chinese Character Based on Human Vision and Prior Knowledge of Calligraphy 报告人: 史操 作者: 史操、肖建国、贾文华、许灿辉 单位: 北京大学计算机科学技术研究所 NLP & CC 2012: 基于人类视觉和书法先验知识的汉字自动生成.
韩文数据库使用说明 鲁锦松. 主要内容 一、为什么要用数据库 二、怎样利用中文数据库 三、怎样利用韩文数据库.
本章讨论有限自由度结构系统,在给定载荷和初始条件激励下的系统动力响应计算方法。 第 六 章
Non-Negative Matrix Factorization ( NMF ) Reportor: MaPeng Paper :D.D.Lee andS.Seung,”Learning the parts of objects by non-negative matrix factorization”
§7.2 估计量的评价标准 上一节我们看到,对于总体 X 的同一个 未知参数,由于采用的估计方法不同,可 能会产生多个不同的估计量.这就提出一 个问题,当总体的一个参数存在不同的估 计量时,究竟采用哪一个好呢?或者说怎 样评价一个估计量的统计性能呢?下面给 出几个常用的评价准则. 一.无偏性.
Presentation transcript:

Power Iteration Clustering Speaker: Xiaofei Di

Outline Authors Abstract Background Power Iteration Clustering(PIC) Conclusion

Authors Frank Lin PhD Student Language Technologies Institute School of Computer Science Carnegie Mellon University William W. Cohen Associate Research Professor, Machine Learning Department, Carnegie Mellon UniversityMachine Learning DepartmentCarnegie Mellon University

Abstract We present a simple and scalable graph clustering method called power iteration clustering. PIC finds a very low-dimensional embedding of a dataset using truncated power iteration on a normalized pair-wise similarity matrix of the data. This embedding turns out to be an effective cluster indicator, consistently outperforming widely used spectral methods such as Ncut on real datasets. PIC is very fast on large datasets, running over 1000 times faster than an Ncut implementation based on the state-of-the-art IRAM eigenvector computation technique.

摘要 本文提出了一种简单可扩展的图聚类方法: 快速迭代聚类( PIC )。 PIC 利用数据归一化的逐对相似度矩阵,采 用截断的快速迭代法,寻找数据集的一个 超低维嵌入。这种嵌入恰好是很有效的聚 类指标,使它在真实的数据集上总是好于 广泛使用的谱聚类方法,比如 NCut 。 在大规模数据集上, PIC 非常快,比基于最 好的特征计算技术实现的 Ncut 快 1000 倍。

Background spectral clustering

Background Power Iteration Method Advantage dose not compute matrix decomposition Disadvantages finds only the largest eigenvalue and converges slowly An eigenvalue algorithm – Input: initial vector b0 and the matrix A – Iteration: Convergence Under the assumptions:  A has an eigenvalue that is strictly greater in magnitude than its other eigenvalues  The starting vector b 0 has a nonzero component in the direction of an eigenvector associated with the dominant eigenvalue. then:  A subsequence of converges to an eigenvector associated with the dominant eigenvalue

Power Iteration Clustering(PIC) Unfortunately, since the sum of each row of NA is 1, the largest eigenvector of NA (the smallest of L) is a constant vector with eigenvalue 1. Fortunately, the intermediate vectors during the convergence process are interesting. Example: Conclusion: PI first converges locally within a cluster.

PI’s Convergence Let: W = NA (Normalized affinity matrix ), Spectral representation of Spectral distance between a and b:

a)The size of the radius is of no importance in clustering, because most clustering methods based on relative distance, not absolute one. b) The importance of the dimension associated with the i-th eigenvector is downweighted by (a power of) its eigenvalue, which often improves performance for spectral methods. c) For many natural problems, W is approximately block-stochastic, and hence the first k eigenvectors are approximately piecewise constant over the k clusters. It is easy to see that when spec(a,b) is small, signal must also small. However, when a and b are in different clusters, since the terms are signed and additively combined, it is possible that they may “cancel out” and make a and b seem to be in the same cluster. Fortunately, this seems to be uncommon in practice when the cluster number k is not too large.

Early stopping for PI While the clusters are ‘’locally converging”, the rate of convergence changes rapidly; whereas during the final global convergence, the converge rate appears more stable.

Experiments (1/3) Purity : cluster purity NMI : normalized mutual information RI : rand index The Rand index or Rand measure is a measure of the similarity between two data clusterings. Given a set of n elements and two partitions of S to compare, and, we define the following: data clusteringssetelementspartitions a = | S * |, where b = | S * |, where c = | S * |, where d = | S * |, where for some Then:

Experiments (2/3) Experimental comparisons on accuracy of PIC Experimental comparisons on eigenvalue weighting

Experiments (3/3) Experimental comparisons on scalability NCutE uses slower, classic eigenvalue decomposition method to find all eigenvectors. NCutI uses fast Implicitly Restarted Arnoldi Method(IRAM) for the top k eigenvectors. Synthetic dataset

Conclusion Novel Simple Efficient

Appendix ----NCut

Appendix ----NJW