Study Notes

存档

2019年12月的存档

数据存储框架14

2019年12月19日 Phillip 没有评论

多年来以客户服务为中心，良好的服务为公司赢来更为广阔的市场。好的服务像“鸭子浮水”，人们看到鸭子在水面上悠闲地游来游去，但其实在水面之下，鸭子的脚掌在快速拨动，不断变换方向和速度。水面下的部分，就是我们技术服务要做的重要工作。

公司的核心价值之一是“以客户为中心”，服务就是对“以客户为中心”的最佳诠释和体现。对于客户而言，服务是他们对公司最直接的感知。因此，客户一旦遇到什么问题，服务团队总是第一时间赶到现场，并感同身受地帮助客户解决问题，并客户觉得公司是值得信赖的。我们的服务是有温度的。

好的服务讲究“润物细无声”。优质的服务，不是轰轰烈烈的，而是默默站在客户背后，时刻保障客户设备安全和稳定运行，日积月累，让客户感受很舒服，使客户产生信赖，并逐渐成为客户可靠的伙伴。

一、人员和组织保障
公司的部门和员工众多，每个部门的考核不同，不同员工的思维方式也不同。要形成合力，需要大家有统一的价值观，这就是“以客户为中心”。那么如果让这个价值观落地并深入人心呢？需要有针对性的制度和工具。

比如客户满意度调查。每完成一次服务，都有专人对客户进行回访，对现场技术工程师的技术能力、服务态度和规范进行考察。经过综合统计，获得客户满意度结果，使之成为员工考核的重要指标。

技术团队的人员和组织，是面向客户设置的。越靠近客户的一端，人员和组织的专属性就越强。这点类似于边缘/云计算？这样一来，每个技术服务人员都可以聚焦自己的客户，对客户的情况更熟悉; 对于客户而言，可以在遇到问题时，直接找到自己专属的服务人员。在人员和组织方面，设置有研发团队、区域客户服务平提和本地服务团队的三层服务架构，从而为客户不同程度问题的解决提供了保障。

二、主动预防
“看网讲网”。客户的专属服务人员，会定期去考察客户的系统，为客户进行讲解，并对风险进行评估，制定预案。同时，还会为客户设备进行定期的巡检，起到未雨绸缪的作用。

针对数据迁移或业务切换这类高风险的操作，提前做好关键点控制，并将事件分为不同的等级。每次处理前，设计好实施方案，并在内部开展讨论，然后在客户同意、获得技术和管理双方面授权的前提下，才开始进场实施，从而确保安全性。

重保。当客户面临一些重大事件，比如召开重大会议时，会安排提前和客户沟通，并提供重大事件的保障，如现场值守。还提供远程管理服务，7×24小时服务等。

三、应急响应
除了主动防御和规定动作，还为客户提供了应急响应服务。比如，针对客户的突发事件，设置一整套问题申报和处理流程，可以把相应资源调动起来，为客户解决问题。当客户的系统发生重大故障时，迅速成立应急指挥中心，把预设的各项资源调动起来，及时为客户解决问题。

针对VIP客户，直接把响应提升到更高级别，从而加速问题的解决。

四、流程和制度
讲究流程的遵从性。“从问题到解决”，如果问题没有解决，就会不断升级，直到触发“管理升级”。这是公司赋予一线管理者的全力，可以强力牵引公司的资源去解决问题。到了管理升级层面，随着公司高层介入，各类资源就位和拉通，问题快速闭环，这相当于制度层面的保障。

服务流程体系是一套求助系统

服务流程体系是一套求助系统。不可能所有的事情都能做，因此一定要善于求助，找到合适的人将问题解决。服务流程体系是一个资源求助和调配的系统。“什么是流程？流程是人人有事做，事事有人做。”。技术服务人员会遇到哪些场景，应该去找谁，流程都规定得十分详细；只要按照流程去做，就能迅速调集相关资源。

“做为一名一线的主管，我愿意为客户服务，公司通过相关制度考核我的工作，同时公司又给了我工具和权力，让我可以调配资源为客户服务，这样责任和权利就对等了，公司的服务也因此有了坚强的保障”。

从企业活下去的根本来看，企业要有利润。但利润只能从客户那里来。企业的生存本身是靠满足客户需求，提供客户所需的产品和服务，并获得合理的回报来支撑。员工要给工资，股东要给回报，天底下唯一能给钱的，只有客户。我们不为客户服务，还能为谁服务？客户是我们生存的唯一理由。

分类: 大数据标签: 技术服务体系

数据存储框架13

2019年12月18日 Phillip 没有评论

产业升级带来的需求爆发和技术质变，使得智能视频呈现出强大的生机。

使命感的企业，认为只有将自身的进步建立在整个社会和人的进步之中，才能真正实现企业的理想和价值。人类即将进入万物感知、万物互联和万物智联的社会。万物感知是入口，万物互联是基础，万物智联是结果。

智能手机是我们目前用来感知万物的常用工具，是和世界联接的纽带，是用户体验入口和应用载体，可以随心所欲和无处不在感知万事万物。智能视频行业也讲师未来万物感知的核心之一。人有五官，而获取数据80%来自眼睛。

视频是机器之眼，其视觉能力与智能手机在4G时代就成为连接人与人、人与社会关键一环。4G改变生活，5G改变社会。未来要感知智能社会，每一个环节都将智能化，行业的变革和重塑正在发生。智能视频做为感知入口和数据采集终端，其市场竞争将非常激烈。

目前，安防亦然成为一种业务形态，其边界业务和应用场景宽泛、交融。要赋能千行百业，智能视频也应无处不在和无所不能，以此来充分满足用户智能化的需求。当前智能视频行业的痛点是：智能普及率低、智能效能低、复杂场景难以胜任、数据壁垒等等。

数字化转型，将成为未来社会的发展核心，是产业升级的必经之路。智能视频是实现数据转型的重要锚点，是产业数字化升级的核心驱动力，也是提高生产管理效率的数字化和智能化的关键技术。

智能视频，需要从物理世界投射到数字世界，也要求把数字世界叠加渲染进物理世界，形成虚实协同的数字孪生。对物理世界进行数字化建模，需要智能视频的感知。智能视频就是数字世界的眼睛，传递视界即为世界。

“优势挡不住趋势”，这句话对行业变化和发展有重要的意义。将来智能视频的远景:
– 从零散稀疏走向无处不在
– 从后知后觉走向先人一步
– 从辅助系统走向生产系统
– 从单一感知走向多维融合
– 从事倍功半走向功能倍增
– 从各自为政走向有效协同

话述: 产品能从专业AI芯片升级、开放的操作系统升级、丰富的应用生态体系升级三大维度。做为多维数据的汇聚与智能分析平台，产品从新生态、新架构和新内核全新予以定义，从线下服务升级到线下+线上的全生态体系，从”边云协同”升级到基于vPaSS2.0的”端边云”全协同，从传统的”存检算”升级到基于某AI芯片/处理器的智能的存算检模式”。

这是一篇介绍“边云协同”的文章，很有参考价值。

分类: 大数据标签:

上午发现三节点集群中的node555没有启动，可能是系统盘出了问题。修复后让node555启动进入系统，此时在Web界面中刷新并没有看到node555上线。在node555中执行jps，发现没有列出datanode。结合昨天的实验内容，在node555上手动启动datanode后，Web界面中可以看到node555上线。注意之前node555被配置为SecondNameNode,此次并未列出(可能也需要手动启动)。

# jps
10053 Jps （未列出DataNode）
# cd /usr/hadoop-2.10.0/sbin/
# ./hadoop-daemon.sh start datanode
starting datanode, logging to /usr/hadoop-2.10.0/
logs/hadoop-root-datanode-node555.out
# jps
10092 DataNode (列出DataNode)
10205 Jps

通过调整权限很快解决了web不能上传文件的问题，参考了HDFS的Shell文档，将测试目录的权限开到最大。以下操作在NameNode的node333中进行。无法上传到20191212目录的原因是其它用户没有写权限

# hdfs dfs -ls /
Found 1 items
drwxr-xr-x   - root supergroup   0 2019-12-12 02:01 /20191212

如Web上传到此目录，将提示Couldn’t upload the file

新创建一个20191213目录，分配写权限。注意，在创建时“20191213”和”/20191213″是完全不同的。如果不带”/”，将在”/”目录下生成一个/user/root/20191213目录。

# hdfs dfs -mkdir -p /20191213
# hdfs dfs -ls /20191213                                                                    
# hdfs dfs -ls /
Found 2 items
drwxr-xr-x  - root supergroup  0 2019-12-12 02:01 /20191212
drwxr-xr-x  - root supergroup  0 2019-12-12 21:38 /20191213
# hdfs dfs -chmod -R 777 /20191213
# hdfs dfs -ls /
Found 2 items
drwxr-xr-x  - root supergroup  0 2019-12-12 02:01 /20191212
drwxrwxrwx  - root supergroup  0 2019-12-12 21:38 /20191213

然后就可以上传文件到20191213了:

查看文件详细信息时，可以看到文本文件的head和tail部分(和Linux的head/tail一样)。

分类: 大数据标签:

数据存储框架11

2019年12月12日 Phillip 没有评论

今天下午完成了扩容的测试。两个数据节点node444和node555除了系统盘(80G/SSD)外，每节点还有3块1T硬盘。测试内容为将node444上的三块1T硬盘容量加入到Hadoop资源池之中，然后上传存入一些文件。参考文档[1]和[2]。具体过程如下。

1.在数据节点node444上，将三块1TSATA硬盘(/dev/sdb，/dev/sdc和/dev/sdd)分区、格式化和挂载到node444的本地目录。

# fdisk /dev/sdb (创建一个主分区sdb1)
# fdisk /dev/sdc (创建一个主分区sdc1)
# fdisk /dev/sdd (创建一个主分区sdd1)
# mkfs.ext4 /dev/sdb1
# mkfs.ext4 /dev/sdc1
# mkfs.ext4 /dev/sdd1
# mkdir -p /data/stor_a
# mkdir -p /data/stor_b
# mkdir -p /data/stor_c
# mount /dev/sdb1 /data/stor_a
# mount /dev/sdc1 /data/stor_b
# mount /dev/sdd1 /data/stor_c
# vim /etc/fstab （开机自动挂载）
  /dev/sdb1   /data/stor_a    ext4    defaults    0 0
  /dev/sdc1   /data/stor_b    ext4    defaults    0 0
  /dev/sdd1   /data/stor_c    ext4    defaults    0 0

2. 在数据节点node444上，在hdfs-site.xml写入配置路径。其中“/opt/hadoop_tmp/dfs/data”是在core-site.xml中设定的路径，/data/stor_a是新增硬盘容量对应的挂载目录。

# vim /usr/hadoop-2.10.0/etc/hadoop/hdfs-site.xml     
 <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>
                        file:/opt/hadoop_tmp/dfs/data/,
                        file:/data/stor_a,
                        file:/data/stor_b,
                        file:/data/stor_c
                </value>
        </property>

3. 在数据节点node444上，重启datanode服务

# cd /usr/hadoop-2.10.0/sbin
# ./hadoop-daemon.sh stop datanode
stopping datanode
# jps
11276 Jps （可以观察到没有列出datanode）
# ./hadoop-daemon.sh start datanode                                                      
starting datanode, logging to /usr/hadoop-2.10.0/logs/hadoop-root-datanode-node444.out

4. 在任一节点上查看增加后的容量，可以看到node444的容量为2.73T，集群的总容量也发生了变化，即三块1T的容量已经加到资源池中。

# hadoop dfsadmin -report
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

Configured Capacity: 3054216757248 (2.78 TB)
Present Capacity: 2897777172480 (2.64 TB)
DFS Remaining: 2897528950784 (2.64 TB)
DFS Used: 248221696 (236.72 MB)
DFS Used%: 0.01%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0
Pending deletion blocks: 0

-------------------------------------------------
Live datanodes (2):

Name: 172.16.20.40:50010 (node444)
Hostname: node444
Decommission Status : Normal
Configured Capacity: 3003662340096 (2.73 TB)
DFS Used: 124162048 (118.41 MB)
Non DFS Used: 3104387072 (2.89 GB)
DFS Remaining: 2850352889856 (2.59 TB)
DFS Used%: 0.00%
DFS Remaining%: 94.90%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Thu Dec 12 03:24:21 EST 2019
Last Block Report: Thu Dec 12 03:13:42 EST 2019

中间遇到并已经解决的问题:
– 在扩容的数据节点上必须重启datanode，否则无法生效。
– 在写配置文件hdfs-site.xml时忘写一个< /property>，排查花了一些时间。

关于上传文件，在NameNode的node333上使用命令行可以完成对应任务。我把node333中的jdk安装包和pdsh压缩包放到hadoop中，如下。

[root@node333 ~]# ls
anaconda-ks.cfg  hadoop-2.10.0.tar.gz  jdk-7u45-linux-x64.rpm  pdsh-2.26  pdsh-2.26.tar.bz2
[root@node333 ~]# hdfs dfs -put jdk-7u45-linux-x64.rpm /20191212
[root@node333 ~]# hdfs dfs -put pdsh-2.26.tar.bz2 hdfs://node333:9000/20191212
[root@node333 ~]# hdfs dfs -ls /20191212
Found 2 items
-rw-r--r--   2 root supergroup  122585894 2019-12-12 01:58 /20191212/jdk-7u45-linux-x64.rpm
-rw-r--r--   2 root supergroup     490732 2019-12-12 02:01 /20191212/pdsh-2.26.tar.bz2

上传后在Web界面中可以看到文件目录和列表。

遗留的问题:
– 在Web界面中无法上传文件，估计是权限配置的问题，暂时没有找到解决方法。网上有文章[3]提到“By Default HDFS Web UI is read only, and files or directories can’t be created/modified.”
– 参考[2]和 [4]修改hdfs-site.xml尝试让节点下线，发现指定下线节点并未出现Decommission状态。原因需要进一步调查。

分类: 大数据标签:

数据存储框架10

2019年12月10日 Phillip 没有评论

今天装好了一个三节点的Hadoop。参考这两篇文章[1]和[2]。中文参考文档虽然详细，但是有些错误。记录我的安装步骤如下。

1.三个节点服务器安装CentOS7.2最小版，配置各节点无密码ssh登录(参考前几天的文章)。

2.在每个节点上安装JDK。在Oracle.com官网上注册，然后下载jdk-7u45-linux-x64.rpm，在每个节点上安装JDK并执行以下命令，用rpm安装后java的路径为“/usr/java/jdk1.7.0_45”。以node333为例:

# rpm -ivh jdk-7u45-linux-x64.rpm
# vim /etc/profile （修改配置文件，增加以下行）
    export JRE_HOME=/usr/java/jdk1.7.0_45/jre
    export JAVA_HOME=/usr/java/jdk1.7.0_45/
    export CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    export PATH=$PATH:$JAVA_HOME/bin
# source /etc/profile （使配置文件生效）
# java -version （检查安装是否成功）
    java version "1.7.0_45"
    Java(TM) SE Runtime Environment (build 1.7.0_45-b18)
    Java HotSpot(TM) 64-Bit Server VM (build 24.45-b08, mixed mode)

3.在节点node333，下载hadoop-2.10.0.tar.gz并解压到/usr下

# ls /usr/hadoop-2.10.0/

4.在节点node333，参考文档[2]配置hadoop。首先配置core-site.xml文件(注意将原文件备件),此次试验将node333设置为集群的namenode。

# cd /usr/hadoop-2.10.0/etc/hadoop
# vim core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://node333:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/hadoop_tmp</value>
        </property>
        <property>
                <name>io.file.buffer.size</name>
                <value>131072</value>
        </property>
</configuration>

其次配置hdfs-site.xml文件(文件路径都在/usr/hadoop-2.10.0/etc/hadoop)，设置副本数为“2”（默认为3？）。

# vim hdfs-site.xml
<configuration>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
</configuration>

接着配置mapred-site.xml文件，目录中没有这个文件，需要先根据模板生成。将node555设置为SecondaryNameNode。

# cp mapred-site.xml.template mapred-site.xml
# vim mapred-site.xml
<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>node555:50090</value>
        </property>
</configuration>

然后配置yarn-site.xml,YARN即Yet Another Resource Negotiator的缩写，是一个资源管理系统。将node444设置为resourcemanager。

<configuration>
<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>node444</value>
        </property>
</configuration>

接着配置slaves文件，将各节点主机名加入:

# vim slaves
    node333
    node444
    node555

在hadoop-env.sh中配置JAVA_HOME的路径

# vim hadoop-env.sh (修改对应行)
    export JAVA_HOME=/usr/java/jdk1.7.0_45/

最后再次配置/etc/profile 加入HADOOP_HOME执行路径:

# vim /etc/profile
    export JRE_HOME=/usr/java/jdk1.7.0_45/jre
    export JAVA_HOME=/usr/java/jdk1.7.0_45/
    export HADOOP_HOME=/usr/hadoop-2.10.0/
    export CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
# source /etc/profile

所有配置完成。

5.在node333上检查已经安装成功，可以显示正确的hadoop版本信息。

# hadoop version
Hadoop 2.10.0
Subversion ssh://git.corp.linkedin.com:29418/hadoop/hadoop.git -r
e2f1f118e465e787d8567dfa6e2f3b72a0eb9194
Compiled by jhung on 2019-10-22T19:10Z
Compiled with protoc 2.5.0
From source with checksum 7b2d8877c5ce8c9a2cca5c7e81aa4026
This command was run using /usr/hadoop-2.10.0/share/hadoop/common/hadoop-common-2.10.0.jar

6.在node333上，将hadoop文件目录和profile文件复制到其它节点(node444和node555)

# scp -r hadoop-2.10.0 root@node444:/usr/
# scp -r hadoop-2.10.0 root@node555:/usr/
# scp profile root@node444:/etc/ 
# scp profile root@node555:/etc/

我在之前的测试中，早早在各节点中解压了hadoop目录，没有同步配置文件，导致node333启动hadoop服务后没有找到数据节点。有些大意了。

在node444和node555上分别执行以下命令,使路径生效。

# source /etc/profile

7.启动hadoop。在node333(已设置为Name Node)上做初始化。

# hadoop namenode -format

启动hdfs,在hadoop下的sbin下：

# ./start-dfs.sh

在各节点上执行jps可以看到如下结果:

[root@node333 ~]# jps
7735 Jps
2618 NameNode

[root@node444 ~]# jps
2418 Jps
2207 DataNode

[root@node555 ~]# jps
10192 SecondaryNameNode
10086 DataNode
10526 Jps

8.在浏览器中访问集群，可以看到各节点状态。

DataNode列表

遗留问题，每个节点还有三块硬盘。这些未挂载未格式化的硬盘容量未体现在集群中，下一步解决。

分类: 大数据标签:

数据存储框架09

2019年12月6日 Phillip 没有评论

一直以来都想找可以管理多台服务器的工具，今天研究了psdh，感觉比较方便。以下是通过Ubuntu的笔记本管理三台CentOS7.2的具体过程。配置成功的关键是就保证ssh无密码登录。参考了这两篇文章[1][2]。

1.安装pdsh
我开始时以为需要被管理的CentOS也要装pdsh，后来证明是不用装的。在管理用的笔记本Ubuntu中使用

$sudo apt-get install pdsh

2.在Ubuntu的/etc/hosts中加入各节点名

172.16.20.30    node333
172.16.20.40    node444
172.16.20.50    node555

3.在Ubuntu上生成公钥，此时可用phillip。

$sudo ssh-keygen -t rsa

4.将公钥复制到被管理的CentOS服务器上。之前用Ubuntu的用户phillip+sudo会返回失败，必须先切换为Ubuntu的root用户，才能执行。在Ubuntu中执行以下命令：

$sudo -i
#ssh-copy-id root@node333
#ssh-copy-id root@node444
#ssh-copy-id root@node555

5.测试将所有服务器的时间于ntp同步，显示主机名。

$ sudo pdsh -w ssh:root@node[333,444,555] hostname
node444: node444
node555: node555
node333: node333
$ sudo pdsh -w ssh:root@node[333,444,555] ntpdate ntp1.aliyun.com
node555:  6 Dec 01:58:06 ntpdate[10235]: adjust time server 120.25.115.20 offset 0.013388 sec
node444:  6 Dec 01:58:06 ntpdate[2338]: adjust time server 120.25.115.20 offset -0.003958 sec
node333:  6 Dec 01:58:16 ntpdate[2405]: adjust time server 120.25.115.20 offset 0.001803 sec

在各个节点之前实现无密码ssh登录的方法和步骤:
1. 在节点(以node333为例)，首先修改/etc/hosts，将其它节点主机名加入hosts

# vim /etc/host
172.16.20.30    node333
172.16.20.40    node444
172.16.20.50    node555

2. 在节点(以node333为例)上执行以下命令

# ssh-keygen -t rsa -f id_dsa (在.ssh目录下生成id_dsa和id_dsa.pub)
# cd .ssh
# cat ip_dsa.pub >> authorized_keys

3. 将生成的密匙id_dsa.pub复制到其它节点(node444和node555)，

# scp .ssh/id_dsa.pub root@node444
# ssh root@node444
# cat id_dsa.pub .ssh/authorized_keys (导入复制过来的ssh_key)

这样node444和node555就可以无需密码登录node333了。依次在所有节点操作即可。

tmux很强大，使用了几天后才发现上下翻页只需要Ctrl+b，然后PgUp和PgDn就可以了。tmux的缓冲区命令用于vim或less等场景。

分类: 大数据标签: pdsh, tmux

数据存储框架08

2019年12月4日 Phillip 没有评论

IOPS，即Input Output Per Second的缩写，表示每秒处理的输入/输出(I/O)次数; 单位时间内系统能处理的I/O请求数量。I/O请求通常为读或者写数据操作请求。

关注IOPS的应用: 随机读写频繁的业务，如小文件存储、OLTP数据库、邮件服务器。这类应用关注随机读写性能，以IOPS为重要的衡量指标。例如，读取10000个1KB文件，用时10秒。IOPS=10000/10=1000，数据吞吐量Throught=1000KB/s约为1MB/s。

关于数据吞吐量的应用: 顺序读写频繁的业务，如传输大量连续数据、电视台的视频编辑，视频点播。这类应用关注连续读写性能，数据吞吐量是重要衡量的指标。例如，读取1个10MB文件，用时0.2秒。IOPS=1/0.2=5，数据吞吐量Throught=10/0.2约为50MB/s。

机械硬盘的服务时间。传统的磁盘为机械硬盘，接口有FC/SAS/SATA，转速通常为5200/7200/10K/15K三种。注意此处的转速单位是rpm,即每分钟的转速(不是每秒)。决定机械硬盘的重要指标是服务时间，即完成一次I/O请求所花费的时间。机械硬盘的服务时间=寻道时间+旋转延迟+数据传输时间。

机械硬盘的数据读写方式: 磁头移动到数据对应的磁道-电机将盘片旋转到数据所在扇区-读写数据

寻道时间TSeek:是读写磁头移动到正确磁道上所需的时间。平均为3-15ms。7200转的平均寻道时间为9ms，10K为6ms，15K为4ms。
旋转延迟Trotation:是盘片旋转将请求数据所在扇区移至磁头下方所需的时间。旋转延迟取决于硬盘的转速，通常使用磁盘旋转一周所需时间的1/2表示。比如7200转硬盘的平均旋转延迟= [60(1分钟)x1000(1秒=1000毫秒)/7200]x(1/2)=4.17ms。这个时间与希捷官网上标识的延迟4.16ms是相同的。实际计算结果为4.16666(6无限循环)。10K的旋转迟延为3ms，15K的旋转迟延为2ms。
数据传输时间Transfer：完成传输所请求数据的时间，取决于数据传输率。其值=数据大小/传输率。SATA硬盘的数据传输率为300MB/s。数据传输时间通常远小于前两部分(寻道时间+旋转延迟)，在简单计算时可忽略。

理论IOPS，即在1秒(这个1秒是根据IOPS定义的时间单位:秒)内完成上述读写过程的次数。计算公式为:
IOPS = 1秒/(寻道时间+旋转延迟时间+数据传输时间)，数据传输时间相对较小，可以忽略。
以7200转机械硬盘为例子: IOPS = 1000ms(1秒=1000ms)/(9+4.17)=1000/13.17=75.93即76次。
10K IOPS=1000/(6+3)=111，15K IOPS=1000/(4+2)=167。可见，要提高IOPS，可以通过分别减小寻道时间，增大碟片转速和增大数据传输率来实现。在实际测试中，IOPS受到很多因素的影响，包括I/O负载特征(读写比例、顺序和随机、工作线程数、队列深度、数据记录大小)、系统配置、操作系统、磁盘驱动等。测试IOPS，必须尽量在同一基准平台进行，尽管如此还是会有一定的随机性。

分类: 大数据标签:

数据存储框架07

2019年12月3日 Phillip 没有评论

当前视频记录应用的普及和物联网应用的加深，成为数据快速增长的主要推进剂。ZB级数据时代已经嗯到来，IDC分析显示到2023年，两者将贡献近100ZB的数据增量。特别是人工智能技术在视频监控领域的下沉和普及，未来大部分视频监控设备都具有AI能力。AIOT的迅猛发展，使得数据产生由人向机器不断延伸。预计到2023年，超过90%的数据将由机器生成，视频和物联网是主要的数据来源。

如何看到从传统视频向智能视频的转型？
如何从数据的角度赋能智慧视频发展？

从企业角度看数据发展，当前数据非常明显划分为三个层次：数据产生的终端层面、数据初步汇聚分析的分布式数据中心层面(边缘)，最大化提取数据价值的中央数据中心层面(中心)。

终端设备产生的海量数据，如果不加提炼和甄别就全部存储到边缘和核心，将造成资源的严重浪费。这也带动视频分析产品在视频监控领域的快速渗透。传统视频监控最大的特征是一个事后调查系统，案件发生时依靠人力在事后调取录像查看，视频数据保留价值低。而智慧视频会在每一个环节都发生革命性的变化，可以做到事发时实时报警甚至事前预警，视频保留价值明得到提高。从“有据可查”到“防患于未然”的趋势。

智能视频的生态系统:算法、算力和数据。
-算法，设计高效准确的AI算法，开发目标行业的应用。需要算法厂商不断努力。
-算力，计算算力不断提升，成本可控。需要AI芯片厂商发适合市场，可大规模使用的AI芯片。
-数据，存储厂商需要解决人工智能时代的大数据存储问题。

在终端：摄像头将产生大量随机读写结构化的数据，要求更高读写性能的嵌入式闪存产品。
在边缘：传统的边缘服务器向AI边缘和分布式云边缘转变，要求更大容量和更高的可靠性。
在核心: 随着更多视频图像数据不断从边缘/终端汇聚并累计，海量高数据价值存储量带来存储容量和成本的巨大提升。同时，随着云/边的AI训练及推理的增长，高性能的SSD必然被引入做为数据计算的缓存。

分类: 大数据标签:

数据存储框架06

2019年12月3日 Phillip 没有评论

2019年11月底由中国通信学会举办的“2019天线射频系统与5G通信专题研讨会”上，中国电信技术创新中心副主任杨峰义说，目前困扰5G发展的一大难题是功耗。4G典型的基站功耗月1300瓦，5G为3500瓦。同样覆盖目标的情况下，5G基站的数量将达到4G的3-4倍，这样5G移动网络的整机能耗是4G的9倍以上。

根据统计，2018年三大运营商的移动基站年耗电量为270亿度，总电费约为240亿元。在同样覆盖的情况下，5G的能耗将达到2430亿度，电费达到2160亿元。5G庞大的用电成本将吃掉三家运营商所有的利润，还要亏损。即使未来总基站数达不到4G的3-4倍，总体运营成本也将大幅上涨。

杨峰义说技术进步降低功耗的空间是有限的，降低用电价格才是根本。他建议能针对5G用电出台相关的专享优惠政策。

分类: 大数据标签:

数据存储框架05

2019年12月2日 Phillip 没有评论

希捷企业级硬盘8T以下容量为E系列空气盘，10T及以上的企业级硬盘为X系列氦气盘。E和X系列的缓存都为256MB，也支持高级写入缓存(2M内置NOR闪存)。经过咨询希捷技术支持，该品牌标注的“高级写入缓存”功能是指在硬盘异常掉电后，利用电机马达尚未完全停止的旋转产生电动势，为写入NOR闪存提供电能支持。GRMS即均方根加速度，多在振动相关的可靠性测试中出现的单位，一般为5。E系列的MTPF为200万小时，X系列为250万小时。每年运行的小时数=365×24=8760小时。E和X的平均时延都为4.16ms。E系列中，8TSATA盘的平均闲置功率为7.64w，运行时(随机读写)的功率为12.81w; 6T的平均闲置功率为6.2w, 运行功率11.67w。企业盘的物理尺寸(长宽高)=147×101.85×26.1毫米。E系列8T盘质量为716g,6T盘质量为693kg，4T为649g。8T盘的最高传输率为249MB/s,6T为226MB/s。X16系列最大传输速率为261MB/s(接口6Gbps),249MB/s(接口3Gbps)，随机4K读取IOPS为170，随机4K写入440。X系列所有容量硬盘的平均闲置功率均为5w，最大运行功耗10w(随机读)/6.3w(随机写)，机械尺寸为147×101.85×26.11毫米，即厚度增加了0.01毫米。X16系列所有硬盘的质量为670g，X12为705g。

分类: 大数据标签:

watch supernatural episodes WordPress 主题站 watch hannahmontana episodes fastxbox360repair

存档

数据存储框架14

数据存储框架13

数据存储框架12

数据存储框架11

数据存储框架10

数据存储框架09

数据存储框架08

数据存储框架07

数据存储框架06

数据存储框架05

最新文章

分类条目

历史归档

Meta