博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop 综合大作业
阅读量:5324 次
发布时间:2019-06-14

本文共 350 字,大约阅读时间需要 1 分钟。

1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。

 首先开启相关的程序,hadoop、hbase

 使用hdfs命令把下载的英文长篇小说复制进hdfs文件夹中

 

 然后打开hive命令行将hdfs中的长篇小说加入数据表

然后查看数据表中的数据

 

 然后使用相关的命令进行词频统计

 

2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

 部分步骤重复了就不说了,接下来就是使用一个脚本,把在主机中制作的csv文件进行预处理

 

 

 然后建表,查看

 

posted on
2018-05-25 17:27 阅读(
...) 评论(
...)

转载于:https://www.cnblogs.com/zxc109525/p/9089870.html

你可能感兴趣的文章
Java开发小技巧(一)
查看>>
第二天简书
查看>>
iptables 用法
查看>>
POJ 3670 DP LIS?
查看>>
空心菱形的显示
查看>>
Eclipse 常用快捷键清单
查看>>
redis 存储时间区间的数据
查看>>
STM32F0库函数初始化系列:进入STOP模式,外部中断唤醒
查看>>
p1525 关押罪犯
查看>>
使用Html5shiv.js让ie支持html5
查看>>
DBA 优化法则
查看>>
用Python连接SQLServer抓取分析数据、监控 (pymssql)
查看>>
升级ruby后再安装cocodPod
查看>>
MySQL数据库8(十三)高级数据操作之select指令
查看>>
随心测试_Python Se_002<不同浏览器驱动>
查看>>
在ASP.NET WebService 中如何使用 WebMethod 属性
查看>>
一个很详细的web.xml讲解
查看>>
Java输入输出流
查看>>
java实现文件的复制
查看>>
BZOJ 4695 最假女选手 线段树
查看>>