Download presentation
Presentation is loading. Please wait.
Published byἈντιόπη Μαγγίνας Modified over 6 years ago
1
Đề tài: Mô hình chủ đề ẩn trích xuất thực thể y sinh
Nhóm: Trần Thắng Bình Ngô Mạnh Quyền Chu Thị Phương Thảo Hà nội, tháng 11 năm 2013
2
Nội dung Mô hình chủ để: LSA, LDA
Nguồn dữ liệu và tài nguyên: Pubmed Central, UMLS Công cụ: Mallet Mô hình Kết quả Đánh giá chất lượng cụm tự động Hướng nghiên cứu tiếp
3
Định hướng nghiên cứu Mục đích nghiên cứu:
Xây dựng các cụm từ vựng(word clusters) liên quan đến nhau thuộc miền dữ liệu y sinh dựa vào mô hình học không giám sát Nghiên cứu các phương pháp sinh ra các cụm từ vựng: Mô hình chủ đề: LSA, LDA (thực tập chuyên ngành) Gom cụm từ vựng (Word clustering) Phương pháp biểu diễn từ vựng Word2vector Tìm hiểu nguồn dữ liệu và các tài nguyên ngôn ngữ trong miền dữ liệu y sinh Xây dựng mô hình đánh giá chất lượng các cụm từ vựng tự động
4
LSA (Latent Semantic Analysis)
Là một mô hình chủ đề được sử dụng để phân tích tài liệu đưa ra những ý nghĩa của tài liệu đó. [ls] Các bước thực hiện: Tạo ma trận chủ đề - từ (đếm số lần xuất hiện của từ trong tài liệu) Sử dụng giá trị tf-idf để đánh trọng số cho từng từ Loại bỏ những từ nhiễu và tạo lại ma trận. Gom cụm tài liệu, gom cụm từ.
5
LSA (Latent Semantic Analysis)
Một số hạn chế của mô hình LSA: LSA sử dụng phân phối Gaussian có thể không phù hợp với nhiều trường hợp. Ví dụ như các từ trong tài liệu thường có phân phối tuân theo phân phối Poisson hơn. LSA không thể xử lý trường hợp đa nghĩa (một từ có nhiều nghĩa) Khó cập nhật lại khi có một tài liệu mới xuất hiện.
6
LDA (Latent Dirichlet Allocation)
LDA giả sử mô hình sinh cho mỗi tài liệu Sinh ngẫu nhiên ra phân bố chủ đề của văn bản đó Với mỗi từ trong văn bản Chọn ngẫu nhiên chủ đề từ phân bố chủ đề ở trên Chọn ngẫu nhiên từ trong phân bố từ của chủ đề. Input: Tập các tài liệu Output: Ma trận Từ - Chủ đề Ma trận Chủ đề - Tài liệu
7
LDA (Latent Dirichlet Allocation)
LDA bao gồm các bước lặp và sau mỗi vòng lặp sẽ tối ưu hóa lại các giá trị xác suất trong 2 ma trận Từ - Chủ đề và Chủ đề - Tài liệu [bl11] Vòng lặp sẽ dừng lại khi hội tụ hoặc chạy hết số vòng lặp cho trước
8
Nguồn dữ liệu và tài nguyên
Pubmed Central PMC là kho lưu trữ tài liệu y sinh và tạp chí khoa học tại Thư viện y khoa quốc gia Hoa kỳ(NLM) – thư viện y khoa lớn nhất thế giới. Các bài báo đều là full – text (các bài đầy đủ)[pm] Cách thu thập dữ liệu: Lấy các tất cả các bài báo theo tên tạp chí và định dạng tgz: ftp://ftp.ncbi.nlm.nih.gov/pub/pmc Lấy bài báo bằng id: Lấy theo ngày: Lấy 1000 bài tiếp theo trong một tập kết quả: Lấy những bài có định dạng PDFs :
9
Nguồn dữ liệu và tài nguyên
Pubmed Central Số lượng dữ liệu đã thu thập: bài báo y sinh từ PMC( 02/10/2013) Xử lý dữ liệu: Dữ liệu down về dưới dạng nén “tar.gz” chứa các file dạng “nxml”
10
Nguồn dữ liệu và tài nguyên
Pubmed Central Xử lý dữ liệu:
11
Nguồn dữ liệu và tài nguyên
UMLS: UMLS là tập các file và phần mềm đưa ra nhiều tập từ vựng về y sinh [um] 3 công cụ UMLS: Metathesaurus: Thuật ngữ và mã số từ nhiều tập từ vựng như CPT, ICD-10-CM, MeSH,… Semantic Network: các loại ngữ nghĩa và quan hệ giữa chúng. SPECIALIST lexicon và Lexical Tools: công cụ xử lý ngôn ngữ tự nhiên. Số liệu thống kê: UMLS có 133 nhãn về lĩnh vực hoặc chủ đề y sinh gồm khoảng 6 triệu từ vựng.
12
Nguồn dữ liệu và tài nguyên
UMLS có cấu trúc rõ ràng:
13
Nguồn dữ liệu và tài nguyên
UMLS: Thu thập: Web browsers: Tìm kiếm dữ liệu thông qua các ứng dụng. Local Installation: Cài đặt UMLS trên máy tính và down các file về. Có thể lưu dữ liệu tải về vào hệ thống cơ sở dữ liệu như MySQL, Oracle. Web Services APIs: Sử dụng giao diện chương trình ứng dụng để yêu cầu UMLS trong ứng dụng. Xử lý dữ liệu: Từ bài báo y sinh ở trên, lọc qua từ vựng UMLS thu được 2 triệu từ có trong UMLS và cũng có trong dữ liệu.
14
Công cụ Mallet được viết bởi: Andrew McCallum và cộng sự.
Trang chủ: Mallet là công cụ cho xử lí ngôn ngữ tự nhiên, phân loại tài liệu, gom cụm, mô hình chủ đề, trích xuất thông tin và các ứng dụng học máy khác bằng thống kê. Bộ công cụ Mallet cho mô hình chủ đề hoạt động dựa trên sự thi hành của Latent Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA.
15
Công cụ Input File dữ liệu text đầu vào với mỗi dòng là một document. Tham số k(số chủ đề muốn sinh ra từ tập dữ liệu đầu vào). Output Ma trận từ/chủ đề
16
Loại bỏ từ có trọng số thấp
Mô hình Tiền xử lý PMC UMLS Website Web UMLS Download Docs Tiền xử lý K=200 Mallet UMLS term Longest matching Dict Ma trận từ/chủ đề Loại bỏ từ có trọng số thấp Model Ma trận tài liệu/chủ đề
17
Kết quả Bảng 1 Bảng 2 Dựa vào tư tưởng của phân cụm văn bản
Khoảng cách giữa các văn bản trong cụm thì gần nhau hơn khoảng cách đến các văn bản trong cụm khác Bảng 1 Bảng 2
18
Kết quả các cụm từ Dựa vào tư tưởng của phân cụm văn bản
Khoảng cách giữa các văn bản trong cụm thì gần nhau hơn khoảng cách đến các văn bản trong cụm khác
19
Kết quả các cụm từ Big question: Làm thế nào đánh giá chất lượng cụm từ vựng ? Phương pháp thông thường: đánh giá thủ công dựa trên tư tưởng Một cụm được đánh giá là tốt nếu tập chung vào một vài chủ đề có liên quan đến nhau (1) Key: Mỗi một từ trong UMLS sẽ thuộc một số nhãn ngữ nghĩa. Dựa trên (1),(2) Có thể sử dụng các nhãn ngữ nghĩa của UMLS để đánh giá chất lượng cụm từ vựng
20
Kết quả Cụm tốt Các từ hướng đến một hoặc một số ít các nhãn (biểu đồ chỉ có một số ít cột nổi trội).
21
Kết quả Cụm nhiễu Các từ trong 1 cụm hướng đến nhiều nhãn. (không xuất hiện các cột nổi trội)
22
Công việc tiếp theo Hoàn thành đánh giá chất lượng cụm được sinh ra bởi mô hình chủ đề Hoàn thành thực tập chuyên ngành (20/11/2013) Viết một báo cáo gửi Workshop sinh viên tại EACL 2013 (deadline: 22/11/2013) Nghiên cứu tiếp 2 nhóm phương pháp về sinh cụm từ vựng Áp dụng các cụm từ vựng cho một bài toán cụ thể (dự kiến: active re-ranking model for biomedical search engine)
23
Tài liệu tham khảo [bl03] 03_#Latent Dirichlet Allocation_BleiNgJordan2003 [bl11] Blei2011_Probabilistic topic models [ls] [pm] [um]
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.