欢迎来到海牛大数据,我们为培养专业大数据人才而生
全国咨询热线:400-608-1886
- 高端小班授课
- 精确剖析大数据课程原理
- 大量实例大数据源码分析
- 动手实操真正的亲身实学
我们的优势
应为专注所以专业,我们专注于大数据人才培训
- 集群服务器E5级CPU,百G内存,上TB存储
- 您电脑上的多个虚拟机模拟大数据环境
- 真实经受过海量用户考验的互联网大数据项目
- 自己构思的不切实际的初级产品
- 实体硬件计算节点
- 您电脑上的虚拟机
- 真实的互联网流量数据
- 项目虚假,自然数据也虚假
- 大数据战场的兵家常客
- 想象过大数据战场
服务器
项目
计算资源
数据
讲师
项目实训
真实经受过海量用户考验的互联网大数据项目
-
实训项目一
CDP平台-CoolNiu商城数仓实践项目
前期准备: 架构设计|逻辑架构设计|技术架构设计|数据架构设计|开发规范文档讲解|调度设计|
数据准备: 业务日志、行为日志数据准备、实体表解析
项目实施: ①数据抽取:抽取业务日志、行为日志、实体表数据。②etl数据加工:业务日志与行为日志etl加工。③数仓加工:入仓、缓冲层加工、贴源层加工、主题层加工、汇总层加工、集市层加工。④数据展示:对接报表系统。⑤即席查询:kylin预计算。
-
实训项目二
无线网络优化大数据平台项目
前期准备: 逻辑架构设计|技术架构设计|数据架构设计|开发规范文档讲解|调度设计|
数据准备: 数据字典解读|业务需求讲解
项目实施: ①etl数据加工:原始数据加工处理。②数仓加工:入仓、缓冲层加工、贴源层加工、主题层加工、汇总层加工、集市层加工。③数据展示:对接报表系统。④即席查询:kylin预计算。
-
实训项目三
MPP架构-历史数据迁移项目
项目目标: 应用装机数据库迁移|hadoop集群迁移至GaussDB 200数据库中|采用MPP架构建仓|
实施方案: ①hive卸数②GaussDB加载数据到缓冲层③缓冲层加载到贴源层④主题层数据摆放⑤汇总层数据汇总⑥集市层数据加工⑦数据校验
设计到的技术:CDP7.1.5、java1.8、shell、Hadoop3.1、hive3.1.3、GaussDB 200 V100R002C80、GDS、airflow2.0.1
-
实训项目四
巨量数据采集引擎
前期准备: 框架设计原理|底层框架编写|数据采集|数据备份|数据传输|
项目描述:用 Python 实现一套可以爬取海量数据的多机并发框架并将数据存储到 HDFS 与 kafka 分布式消息队列中以实现海量数据爬取与大数据集群储存的无缝对接
设计到的技术: Python、Sql、Shell、Queue、Mysql、Linux、Shell、HDFS、Snappy、Kakfa、Redis、Distributed、Phantomjs、HTML、Xpath
-
实训项目五
NLP自然语言处理
前期准备: 内容智能识别算法|内容智能识别规则|数据计算|数据存储|数据产出
项目描述:通过大数据处理结合算法识别方式快速的从海量无规则的网页数据中获取有价值的内容信息,与传统模式相比可以极大的节省开发成本与人力资源成本。并能轻松应对持续的内容与数据增长。常见的应用案例有:搜索引擎的网页数据获取、今日头条等新闻客户端的聚合新闻、文本语义与热词分析。
涉及到的技术:Scala、Python、Java、Sql、Shell、Spark、SparkStreaming、Kafka、BroadCast、MapAccumulator、Zookeeper、HDFS、Redis、Hive、UDF、HBase、ElasticSearch、Mysql、HainiuReport
-
实训项目六
SNS社交网络实时数仓系统
前期准备: 实时数仓数据来源|实时数仓分层|用户画像系统|流批一体化|
项目描述: 对电商网站提供实时数据支持,用大数据的实时技术对数据做实时的数据处理,以达到数据快速的进入数仓各层,最终快速的触发产品线业务,做企业数据原始到结果的中间流水线。让相关人员实时的看到商城系统的点击率、转化率、用户留存、复购率、日活用户、月活用户、新增用户、地区热点、热门物品、流量来源等指标,帮助其及时的对业务做出正确的调整。并结合数据中台理念对用户进行实时标签分类,让用户数据快速的进入用户画像系统,以便广告系统做精准流量切分。
涉及到的技术: Scala、Python、Java、Sql、Shell、Flink、CheckPoint、State、EventTime、Windows、Kafka、HDFS、Avro、ORC、Snappy、Hive、Presto、UDF、Redis、HBase、ElasticSearch、Mysql、HainiuReport
-
实训项目七
计算广告学-物品相似度广告策略
前期准备: 推荐系统|计算广告学|物品相似度算法|
项目描述: 从海量用户数据中基于用户的行为挖掘出相关性最高的物品,并考虑用户兴趣的时间窗口与多物品拥有者的降权处理。用于互联网广告推荐系统中智能推荐广告策略,通过用户的行为挖掘物品的相关性可以极大的提高个性化推荐系统的准确率从而提高细分流量上的广告收入,增加公司的流量变现能力。
涉及到的技术:Scala、Java、Sql、Shell、Spark-core、Spark-Sql、MapReduce、Item-CF、CPA、CPC、CPM、ECPM、用户画像、正负样本、流量切分、推荐系统、今日头条广告系统、广告物料创意与计划、互联网广告策略、Hive、Presto、RowNumber、GID