网络数据科学与技术实验室简介
一、部门介绍
中国科学院计算技术研究所网络数据科学与技术重点实验室致力于面向网络空间的大规模数据感知与获取、存储与管理、分析与挖掘等方面的基础理论、关键技术与应用系统的研究工作。研究方向包括网络数据复杂性与数据计算理论、网络空间感知与数据表示、大数据存储与管理、网络数据挖掘和社会化计算、网络数据管理引擎相关技术、大数据与信息安全等,以此支撑国家网络空间战略性任务,并推动网络数据的产业发展。
实验室近年来承担多项国家973计划项目、国家863计划项目、国家自然基金重点项目的研制,在国际重要期刊和学术会议上发表论文数百篇,在国内外产生了重大影响。相关科研成果获得多项国家级和部委奖励,其中包括一项国家科技进步一等奖、两项国家科技进步二等奖。大量成果已被应用于国家网络空间信息内容安全保障、互联网搜索与服务、政府信息化等多个领域。
实验室的发展目标是揭示网络数据的自然规律,提出数据复杂性度量和数据计算的核心理论,研究ZB级数据引擎的系列关键技术。在这一涉及社会科学、系统科学、网络科学与计算理论等多个领域的新型交叉学科方向,提出面向三元世界融合的网络大数据新型计算理论、方法、模型与范式,建立网络大数据科学平台系统,形成一支国际知名的跨学科网络数据科研团队。
二、研究方向与内容
数据科学与技术重点实验室立足于国家网络空间战略性任务和大数据产业发展需求,对适应网络数据内在规律的复杂性与数据计算理论、网络空间的态势感知与数据表示、大数据的存储与管理体系架构、大数据挖掘与社会计算、网络数据管理引擎和大数据平台系统及信息安全等方向进行研究,具体研究方向和主要研究内容如下:
1.网络数据复杂性与数据计算理论
针对网络数据呈现出的异构多态、动态涌现、复杂关联等特点,对网络数据的规律、网络数据的复杂性理论和网络数据的计算理论等进行研究。具体研究领域包括:探索网络数据的聚集特性和传播规律,研究网络数据的结构与功能稳定性机理及深层规律;研究非确定化、局部增量的学习理论,预测数据演变的全局趋势和涌现规律,提出网络数据的新型算法理论基础;探索弱CAP约束的系统架构模型及其代数计算理论,研究分布化、流式计算算法和复杂性度量理论和大数据分布式计算体系架构等。
2.网络空间感知与数据表示
针对网络空间中数据具有跨媒体关联、强时效演变、多主体互动等特点,对无边界分布的网络数据及其状态的有效感知和探测进行研究,对多源异构数据进行质量评估采样,对多源富特征数据之间的相关性、差异性和显著性进行度量,最终实现对多源、异质、富特征数据的统一表征。具体研究领域包括:研究网络空间数据态势的感知与测量;研究网络数据的质量评估与、采样与获取方法;研究多源、异质数据的清洗、提炼与融合表示等。
3.大数据存储与管理
面向“人机物”融合环境下大数据的存储与管理的技术瓶颈,对高可用、高性能、易扩展、低能耗的新型数据存储结构及关键技术进行研究。具体研究领域包括:研究面向高效融合的文件存储结构、索引机制、弱一致性模型以及层次化存储服务模型;研究网络数据与网络服务标识及数据迁移机制,研究以数据围中心的高效路由与智能传输机制,研究多源动态数据访问特征获取及服务需求量化表达方法;研究数据管理局部化策略、数据计算任务分解、计划生成与调度优化算法;研究网络数据存储系统的物理资源管理、数据存取引擎、系统运维等各类功能组件的整体设计方法;研究分布式存储体系架构和存储效用评价标准和测试方法等。
4.网络数据挖掘和社会化计算
针对大规模网络数据进行挖掘分析,对社会网络运行的规律与发展趋势进行研究,具体研究领域包括:研究大规模用户数据的测量与挖掘方法,数据间内在的多维度异质关联关系,探索异质关系数据的关联度量和融合分析方法;研究大规模数据分析中的高效排序模型和框架和面向大数据的机器学习模型与方法;研究基于用户产生数据和用户交互行为的信息推荐方法;研究社会网络中稳定的统计规律,分析网络演化规律并预测网络演化;研究社会媒体中信息交互和信息传播与扩散的内在模式,分析和预测信息传播中的突发现象和话题演化的宏观态势等。
5.网络数据管理引擎相关技术
针对网络大数据的价值利用,研发网络数据管理引擎,在网络数据管理引擎的基础上,构建网络大数据研究平台。在网络数据积累上,实现达到每天千万级原始信息的增量信息获取,积累并管理上百亿级的网络数据;在知识积累上,以行业应用为引导,建立领域相关社会化标签属性集和实体关系库。在支持网络大数据科学研究的同时,支撑高价值的深网信息服务。具体研究内容包括:研究针对指数增长的数据规模的数据存储、计算体系架构;研究深网数据的感知与获取问题;研究深度挖掘异质富关联关系和暗藏线索等。
6、大数据与信息安全
大数据与信息安全立足于网络漏洞与威胁分析、网络安全管控、网络攻防等方向,对基于信息流的安全控制技术和网络脆弱性分析、评估及网络对抗技术进行研究,同时大力发展云安全、物联网等新兴应用。具体研究领域包括:研究以数据安全为中心的多粒度信息流控制关键技术;研究满足不同粒度控制需求的安全标记规范;研究基于标记的安全策略归一化描述模型和方法;研究形式化分析和验证方法;研究细粒度数据跟踪技术;研究信息流控制技术在云安全和物联网安全中的应用;以及研究网络漏洞与威胁关联及预测技术;研究网络安全态势分析、预测技术和系统;研究未知网络流量异常检测和特征提取技术和系统;研究网络对抗技术;研究恶意代码获取、分析和遏制技术等。
三、导师介绍
博士生导师
|
硕士生导师
|
李国杰院士
|
余智华
|
程学旗
|
廖华明
|
徐君
|
李刚
|
金舒原
|
查礼
|
靳小龙
|
许洪波
|
华云生(客座)
|
刘悦
|
白硕(客座)
|
俞晓明
|
马维英(客座)
|
王元卓
|
段洣毅(客座)
|
郭嘉丰
|
刘欣然(客座)
|
沈华伟
|
王丽宏(客座)
|
林思明
|
张晓东(客座)
|
张瑾
|
方滨兴(客座)
|
兰艳艳
|
云晓春(客座)
|
刘盛华
|
|
欧阳文涛
|
三、 实习生岗位需求
3.1 实习生岗位包括但不局限于如下岗位:
编号
|
拟招收实习生项目/研究方向
|
1
|
流式大数据引擎研究
|
2
|
流式大数据应用系统研究
|
3
|
流式大数据内存计算引擎研究
|
4
|
弹性大数据系统关键技术研究
|
5
|
大数据分析可视化系统实现
|
6
|
大规模数据分析算法实现与应用
|
7
|
基于深度学习的命名实体识别
|
8
|
面向网络评论文本的观点提取
|
9
|
面向网络流式文本数据的事件监测分析
|
10
|
面向网络文本的情感倾向性分析
|
11
|
面向网络文本数据的情绪识别
|
12
|
知识图谱研发
|
13
|
关联分析研发
|
14
|
大数据规律发现研发
|
15
|
群体分析技术的研究于实现
|
16
|
基于微博的影响力分析算法于实现
|
17
|
新型采集技术的探索与研究
|
18
|
网络中文文本词法分析
|
19
|
网络消息流行度分析
|
20
|
社交网络用户影响力分析
|
21
|
面向网络数据的话题分析
|
22
|
面向文本分析的深度学习研究
|
23
|
面向网络的用户画像构建与关联分析
|
24
|
多源异构统一ETL归集技术
|
25
|
交互探索式分析过程建模技术
|
26
|
商业智能BI可视化建模
|
27
|
异构副本查询优化研究
|
28
|
数据分区分布与索引优化
|
3.2实习地点
北京 中国科学院计算技术研究所,网络数据科学与技术重点实验室
3.3 岗位要求
计算机及相关专业在读硕士研究生或高年级本科生.
3.3待遇于薪资
Ø 硕士研究生提供宿舍,并给予和本所研究生一样的课题补贴;
Ø 硕士研究生择优推荐到本实验室工作及下属公司工作;本科生择优推荐参加本所免试研究生的面试。
简历投递邮箱:liuyue@ict.ac.cn