数字通信的基础 (1) :什么是数字数据?一篇入门

来源:Murata(村田)

作者:-

发布时间:2025-09-22

20世纪90年代中期以来,个人计算机(PC)等数字设备随着互联网的出现而得到大范围普及,推动了信息社会和数字社会的迅速发展;随着以智能手机为代表的多种数字设备的出现,现代生活中充满着数字数据,全球数据使用量急剧增加。实际上,2020年全球产生的数字数据量约为15ZB(泽字节,zetta,1Z=1021),2025年估计将达到180ZB

针对人类产生的数据量飞速增长这一现状,2022年第27届国际计量大会甚至将头国际单位制词头扩展至60位数。这是自1991年起31年来初次扩展,添加了表示10的30次方的“昆(quetta,1Q=1030)”和表示10的27次方的“容(ronna,1R=1027)”(同时,还添加了它们的倒数10的−30次方“亏(quecto)”,以及10的−27次方“柔(ronto)”)。目前,人们日常能接触到的数据单位上限通常是硬盘容量“太(T)”表示10的15次方,或者内存大小“吉(G)”表示10的9次方——而三十多年前的存储大小只需用到“兆(M)”。

为了更好地理解数字技术(特别是数字通信)在社会中的作用和重要性,“数字通信系列”将为您介绍支持社会和日常生活的数字技术的一些基本知识。要理解数字无线电和数字调制等数字数据的发送技术,本期我们先来介绍一些与数字技术相关的基础知识,比如数字数据的种类、特征、数量单位等。



1

什么是数字数据?


数字数据由“0”和“1”组成,以2进制而不是日常生活中使用的数法(十进制)表示。此外,它的另一个特征是它不具有物体那样的形状。以下是对这种数字数据的种类、特征和大小(数量)的概述。


1.1


数字数据的种类及其特征


关于数字数据(以下简称为“数据”),首先需要了解的是数据的种类及其特征。数据的种类大致可以分为如下表所示的种类。另外,视频可以被看作是静止图像的集合。

数据的种类

具体示例

文本(文字)

电子邮件、文章、文档、程序等

图像(静止图像)

照片、插图等

视频

电影、电视节目等

声音 - 语音

旁白、电话录音等

声音 - 音乐

歌曲、Techno、BGM等

表一、数据的种类

与数据经常一起使用的术语有“信息”。一般而言,对“数据”和“信息”的理解如下所示:

  • 数据:表示事实的记号和符号的集合。

  • 信息:文字和图像等人类可以用于对可以解读的事物进行判断和行动等的数据。


从这个意义上讲,上表显示了“信息”的种类,但是为了方便起见,在这里不会区分“信息”和“数据”,除非另有说明,否则都将统一使用“数据”一词。


这些数据的特征总结在表2中。可以说,具有类似这些特征的便利性、有效性构成了当今数字社会的基础。

数据特征

说明

复制性

能够创建无损的副本

集成性    

表1中的多种数据可以一并处理,并能在不同的设备之间保持正确

传输性

在互联网上瞬时传播

压缩性

可以减少(压缩)数据量

搜索性

易于搜索

残存性

难以全部消除

保护性

可以进行访问控制(加密)

编辑性    

易于添加、删除和修改

表二、数据特征

1.2


如何表示数据大小(数据量)


数据没有形状,但有大小(数量)

数据用“0”和“1”来表示,其基本单位是位(bit)。“0”是1bit,“1”也是1bit,是数据的下限单位。

此外,从二十世纪60年代开始,将8bit定义为1字节(byte、B)已成为标准,并且该单位也被大范围使用。

表一中的每种数据,虽然会因数据使用状况而异,但数据量倾向于按以下顺序增加:文字、声音、静态图像、视频。

几种数据类型的数据量计算示例如下:

文本(文字):

字母、数值和半角片假名总计为500个文字的文字数据量→ 500byte

∵ 每个文字8bit(1byte)×500个文字=4000bit=500byte

全角片假名、平假名和汉字总计为500个文字的文字数据量→ 1000byte

∵ 每文字16bit(2byte)×500个文字=8000bit=1000byte

图像(静止图像):

分辨率:横向1280像素×纵向1080像素&红/绿/蓝颜色信息:各8bit(8bit×3=24bit)的图像数据量 → 约4.15MB

∵ (1280×1080)像素×24bit≒1.38M×24≒33.18M(bit)≒4.15M(B)

视频:

(将上述图像作为1帧)每秒30帧&2分钟的视频数据量 → 14.93GB

∵ 4.15MB×30帧/秒×120秒≒14.93GB

声音 或 语音:

采样频率:44.1kHz&量化位深:16bit(2byte)& 立体声(2声道)&5分钟的声音数据量 → 52.92MB

∵ 44100×16bit×2声道×300秒=423.36M(bit)×2=52.92M(B)


这里不做详细介绍,但在实际的中,为了缩短通信时间,会通过对每种数据进行压缩的技术减少数据量(参照表2)。压缩是一项用模拟技术难以实现,而通过数字技术则可以实现的颠覆性技术。



2

每种数据的表示

这里,我们分三种情况来讨论。

2.1


文字数据


如前项所述,智能手机和PC上显示的文字(包括表情符号)全部用二进制数字“0”和“1”来表示。这些数字设备上使用的文字用被称为文字代码的数值记述,将文字与文字代码的映射表称为“文字代码系统”。

主要的文字代码包括ASCII、Shift JIS、Unicode :

ASCII:

在美国发明计算机后早期创建的文字代码。包括大写字母和小写字母在内共有52个字母以及+−等记号,它是一个7bit(27=128种)文字代码系统。

例如:“G”的ASCII代码 → “1000111”。

Shift JIS:

支持日语的文字代码。日语中有平假名、片假名和汉字等很多种文字。它是一个用2byte即16bit(216=65536种)表示的文字代码系统。

例如:“友”的Shift JIS代码 → “1001011101000110”(通常使用16进制数,这种情况下为“9746”)

Unicode(统一码):

1993年创建的全球通用文字代码国际标准。它也被称为符号化文字集,并支持表情符号。基于Unicode并且与ASCII全部兼容的UTF-8已被大范围使用,

将文字在1byte至6byte的范围内表示。这是一种在UTF-8中将大多数日语文字以3byte即24bit(224=16777216种)表示的文字代码系统。

例如:“与”的UTF-8代码 → “111001001011100010001110”(16进制数为“E4B88E”)


2.2


图像和视频数据


用智能手机拍摄的照片和显示器上显示的图像(网站上发布的静态图像)由


(1)像素

(2)分辨率

(3)颜色信息(色调)

等因素决定其基本特性。


对于视频,还有另一个因素(4)帧速率。


像素是图像的下限单位,由红、绿、蓝(RGB)颜色或光组成。


分辨率表示图像的细节程度。上图分辨率为4ppi(dpi)。

4K显示器的分辨率为横向3840×纵向2160像素,这意味着它有33177600个即大约3300万个像素。分辨率越低,图像越粗糙,分辨率越高,图像越精细。

另一方面,1英寸的像素数有时也称为分辨率,其单位是每英寸像素数(ppi)(对印刷物为每英寸点数(dpi))。例如,可以计算出27英寸4K显示器的分辨率为163ppi。


颜色信息——色调或层次由离散(跳跃)的数值表示,这些数值代表光的3原色(红、绿、蓝)各自的浓淡。例如,当每种颜色为8bit时——即24bit全彩色的情况下,可以表示28×28×28=256×256×256=16777216种颜色。

例如,所示分辨率为3×2像素的True Color的情况下,数据量为6×24bit=144bit。


帧速率指的是显示器在一秒钟内显示的静止图像(帧)的数量,通常以每秒帧数(fps)为单位来表示。表三显示了代表性帧速率及其使用示例。视频不仅用于宣传,还用于从研发、教育、医疗到娱乐等各个领域,现在已被认可和用作理所当然的内容。

帧速率

使用示例

23.976fps

电影、视频光盘等

29.97fps

电视播放、视频光盘等

59.94fps

电视播放、4K视频光盘

120fps

用于、慢动作拍摄等

240fps或更高

用于特慢动作拍摄等

表三、代表性帧速率及其使用示例


2.3


声音数据


音乐播放器或智能手机上存储的声音和音乐数据由 (1)采样频率,以及(2)量化位深 决定其基本特性。例如,记录了声音数据的音乐光盘(音乐CD)的基本规格为(1)采样频率:44.1kHz;(2)量化位深:16bit。


下图1及图2示意了声音的模拟信号是如何转换成数字信号的。

图一、模拟信号及将其数字化后的信号示意图

图二、从模拟信号向数字信号转换的示意图

这里对上图从模拟信号向数字信号转换做一些解说:

(a)为了简单起见,我们考虑单位时间1秒的声音模拟信号。

(b) 将水平方向的时间轴分隔(采样)成相等的间隔。这个间隔称为采样周期。此外,还提取分隔线和信号的交点(采样点)。在此,分隔数为10,因此采样周期为1/10秒。此外,它的倒数称为采样频率,在本例中为10Hz。

(c)将垂直方向的电平轴分隔,并对每级电平分配一个值(量化)。这里分隔为3bit,即23=8个等级(这个3bit称为‌量化位深)。在量化分配过程中,与模拟信号之间可能会出现差异,这种差异被称为量化噪声。量化电平值从“0”开始。

(d)为每个采样点上的每个电平值分配符号(符号化)。图1(b)中的数字信号的符号与该符号相同。本例为每秒10个采样点,‌量化位深为3bit,所以数据量为10×3bit=30bit。


根据图2中声音数字化的流程解说,我们就能理解音乐CD的基本规格的意思了。采样频率:44.1kHz,‌即分隔数为每秒44100个,1个分隔的时间(采样周期)约为22.7微秒;量化位深:16bit,即把声音信号电平分隔为2的16次方(65536)级。








总 结








由于数字数据的便利性(表二),即使是声音以外的数据(例如图像、时钟读数、温度计的值等等),都普遍会通过电子设备将模拟数据转换为数字数据来提高功能性。在我们的信息社会中,在包括智能手机在内的多种电子设备上对语音和图像数据进行加工和编辑已经变得司空见惯,数字相对于模拟的优势导致传统的模拟设备被数字设备迅速取代,预计这种趋势今后仍将继续。

本系列未来将为您介绍“数据”的发送和接收(即通信)涉及的相关基础概念,比如“通信速度”、“数字调制”等,以及村田制作所在该领域的产品和解决方案。

0
0
收藏

免责声明

  • 1、本文内容版权归属原作者、原发表出处。若版权所有方对本文的引用持有异议,请联系感算商城(service@gansuan.com),我方将及时处理。
  • 2、本文的引用仅供读者交流学习使用,不涉及商业目的。
  • 3、本文内容仅代表作者观点,感算商城不对内容的准确性、可靠性或完整性提供明示或暗示的保证。读者阅读本文后做出的决定或行为,是基于自主意愿和独立判断做出的,请读者明确相关结果。
  • 4、如需转载本方拥有版权的文章,请联系感算商城(service@gansuan.com)注明“转载原因”。未经允许私自转载感算商城将保留追究其法律责任的权利。