Generated by EasyScholar. 
周立柱    教授
清华大学信息科学技术学院计算机科学与技术系    清华大学信息学院学术委员会: 主任 (2007-);清华大学计算机技术与应用系: 主任 (2007-);教育部国家考试中心考试指导委员会: 副主任 (2006-);DASFAA国际学术会议: 指导委员会委员 (2008-);北京计算机学会: 理事长 (2005-);
地址:北京市海淀区清华园1号 100084
Email:dcszlz@tsinghua.edu.cn
电话:62771603


      我最近几年的研究主要集中在万维网(World Wide Web)的纵向搜索(也称垂直搜索)、信息抽取、以及知识发现等方向,包括以下几个方面:

1. 研究了一种纵向搜索技术,其核心思想是以统一的图语言表达从网页抽取实体和关系、XML文档转换、以及数据查询等流程。以这一技术为基础建立的SESQ系统,支持以关键字表示的领域主题,能够完成万维网上网页发现、信息抽取、建立数据库与索引等全过程。由SESQ建立的数据库支持关键字查询、类SQL的复杂查询、以及图形界面查询和浏览的功能。此项研究成为欧盟第六合作框架项目 “ALVIS – Superpeer Semantic Search Engine”(2005-2007)的一个亮点。

2. 在全网规模研究了中文万维网的基本状况。我们以工业搜索引擎抓取的中文HTML网页为基础,通过特征抽取、数据挖掘等方法,对中文深度万维网数据库(Deep Web Databases)进行了统计,发现中文万维网上目前约有64万个深度万维网数据库,它们分别分布在商业、教育、科学、娱乐等领域。同时,深度万维网数据库中,约有一半的查询界面只有单个输入框。以传统的抽样统计方法相比,我们这种Web规模的挖掘方法更加真实地揭示了中文万维网的现状,为更深入地研究和开发中文万维网提供了一个较好的开端。

3. 对中文万维网进行了全网规模的知识发现与抽取。我们研究了一种自主式建立双语词典的方法。该方法以工业搜索引擎抓取的中英文HTML网页作为输入,不依赖任何事前建立的语料库,避免了中文分词以及采用自然语言处理的机器学习算法带来的缺点。我们通过提出的I-Tree数据结构及为其设计的算法,对双语翻译的候选词条进行词频统计与排序,并自动构造双语词典。在数据集上的测试结果表明,我们建立的词典在准确率上不低于互联网上的商业词典系统,而且覆盖了广泛流行的网络用语。该方法具有独立于语言的特性,可用于万维网上其它语词典的构建。该方法已申请专利。

4. 随着Web 2.0的兴起,万维网上出现了很多大规模的社会网络,如何从超大型社会网络中检测社区是一个颇具挑战性的难题。我的研究小组通过把社区抽象为图,并提出了一系列的图挖掘算法,为解决这一难题做出了贡献。例如,我们提出了一种基于动态临近性计算的社会网络社区挖掘算法。该算法采用了动态对照网络拓扑结构和拓扑临近性的策略,通常将二者通过几轮相互加强的迭代过程,网络社区会逐渐呈现出来。实验表明,该算法针对大型网络(如包含几百万个节点、上亿条边)进行社区发现是可行的。相应的论文已在国际数据挖掘顶级会议SIGKDD 09上作为长文发表。

 

管理与服务


最近的学术活动:
暂无相关信息。


最近发表论文: 在DBLP中查找我的文献在C-DBLP中查找我的文献
o198644 Guoliang Li, Jianhua Feng, Beng Chin Ooi, Jianyong Wang, Lizhu Zhou : An effective 3-in-1 keyword search method over heterogeneous data sources. Inf. Syst. 2011 Inf. Syst. 36 (2) :248-266
o198645 Ju Fan, Guoliang Li, Lizhu Zhou : An Effective Approach for Searching Closest Sentence Translations from the Web. DASFAA (2) 2011 :47-57
o198646 Yukai He, Jianyong Wang, Lizhu Zhou : Efficient Incremental Mining of Frequent Sequence Generators. DASFAA (1) 2011 :168-182
o198647 Juan Liu, Ju Fan, Lizhu Zhou : Measuring Similarity of Chinese Web Databases Based on Category Hierarchy. APWeb 2011 :225-236
o198648 Jun Han, Lizhu Zhou, Juan Liu : SDDB: A Self-Dependent and Data-Based Method for Constructing Bilingual Dictionary from the Web. APWeb 2011 :213-224
p77998 仲茜 李涓子 唐杰 周立柱 .基于数据场的大规模本体映射. 计算机学报,2010,计算机学报, (06) :955-966
o198635 Hao Wu, Guoliang Li, Chen Li, Lizhu Zhou : Seaform: Search-As-You-Type in Forms. PVLDB 2010 PVLDB 3 (2) :1565-1568
o198636 Ali Daud, Juanzi Li, Lizhu Zhou, Faqir Muhammad : Temporal expert finding through generalized time topic modeling. Knowl.-Based Syst. 2010 Knowl.-Based Syst. 23 (6) :615-625
o198637 Xutao Du, Chun-Xiao Xing, Li-Zhu Zhou : Modeling and Verifying Concurrent Programs with Finite Chu Spaces. J. Comput. Sci. Technol. 2010 J. Comput. Sci. Technol. 25 (6) :1168-1183
o198638 Jianhua Feng, Guoliang Li, Jianyong Wang, Lizhu Zhou : Finding and ranking compact connected trees for effective keyword proximity search in XML documents. Inf. Syst. 2010 Inf. Syst. 35 (2) :186-203
more