Scala Data Structure

新进小设计 2020-12-18

展开全文

Arrays

Array 固定长度；ArrayBuffer 可变长度
- arr.toBuffer, buf.toArray
初始化是不要使用 new
使用 () 访问元素
使用 for (elem <- arr) 遍历元素；倒序 arr.reverse
使用 for (elem <- arr if ...) ... yield ... 转换为新的数组
- 等价于 arr.filter(...).map(...) 或者更简洁 arr filter { ... } map {...}
与 Java 的数组通用，如果是 ArrayBuffer，可配合 scala.collection.JavaConversions 使用
在做任何操作前都会转换为 ArrayOps 对象
构建多维数组
- val matrix = Array.ofDim[Double](3, 4) // 3 行 4 列

Maps & Tuples

创建、查询、遍历 Map 的语法便捷
- val scores = Map("a" -> 100, "b" -> 90, "c" -> 95) 创建的默认为 immutable 的 hash map
- 可变的 Map 需要显式指定 scala.collection.mutable.Map
- 创建空的 Map 需指定类型 new scala.collection.mutable.HashMap[String, Int]
- Map 是键值对的集合，键值对类型可不相同
  - "a" -> 100 等价于 ("a", 100)；创建的另一种写法 Map(("a", 100), ("b", 90), ("c", 95))
- 访问
  - scores("a") //返回 Option
  - scores("d").getOrElse(0) // 返回实际值
- mutable 更新
  - 更新值 scores("a") = 80
  - 增加元素 scores += ("d" -> 70, "e" -> 50)
  - 删除元素 scores -= "a"
- immutable 不可更新，修改时会产生新的 Map，但公共部分的元素数据是共享的
  - 添加元素会产生新的 Map，scores + ("d" -> 70, "e" -> 50)
  - 删除元素产生新的 Map scores - "a"
- 遍历 for((k,v) <- map) ...
- 排序 Map
  - 按照 key 排序存放 scala.collection.immutable.SortedMap("d" -> 1, "b" -> 2, "c" -> 3) // Map(b -> 2, c -> 3, d -> 1)
  - 按照插入顺序排放 scala.collection.mutable.LinkedHashMap("d" -> 1, "b" -> 2, "c" -> 3) // Map(d -> 1, b -> 2, c -> 3)
区分 mutable 和 immutable
默认 hash map，也可使用 tree map
与 Java 中的 Map 转换方便 scala.collection.JavaConverters
- 在很多时候需要使用 Java 的接口完成任务，但是处理结果时可转换为 Scala 的数据接口来处理更方便，如文件操作等
Tuples 在聚合操作时很有用
- Map 中的键值对就是最简单的元组形式 (k, v)
- 类型不必一致 val a = (1, 3.14, "hello")
- 下标访问 a._1 // 1
- 模式匹配访问 val (first, second, _) = a
- 用于返回多个值
Zipping
- 元组可用于绑定多个值同时处理
- zip 方法

Collections

集合性能对比
多少集合通过 scala.collection.JavaConverters 可与 Java 集合互相转换
集合区分 generic(scala.collection)、mutable(scala.collection.mutable) 和 immutable(scala.collection.immutable)
- 如果未明确导入包或使用包路径，默认使用 immutable
集合 trait 或 class 的伴生对象中，都有 apply 方法，可直接构造集合实例，如 Array(1,2,3)
Traversable 集合层级的顶部，只有 foreach 方法是抽象的，其他方法都可直接继承使用
Iterable ，只有 iterator 方法是抽象的，其他方法都可直接继承使用
- 与 Traversable 的区别在于，iterator 带状态（可选择获取下一个元素的时间，在获取下一个元素之前会一直跟踪集合中的位置）
- Iterable 中的 foreach 通过 iterator 实现
Seq 有序序列，包含 length，有固定下标
- IndexedSeq 快速随机访问，通过 Vector 实现
- LinearSeq 高效的 head/ tail 操作，通过 ListBuffer 实现
Set 无序集合、无重复元素
- 默认实现为 HashSet，即元素其实是按照对应的哈希值排序的
  - 在 HashSet 中查找元素远快于在 Array 或 List 中查找
Map 键值对集合，scala.Predef 提供了隐式转换，可直接使用 key -> value 表示 (key, value)
- SortedMap 按 key 排序

Immutable

file

Vector 带下标的集合，支持快速的随机访问，相当于不可变的 ArrayBuffer
- 通过高分叉因子的树实现，每个节点包含 32 个元素或子节点
- 在快速随机选择和快速随机更新之间保持平衡
- 弥补 List 在随机访问上的缺陷
Range 有序的整型集合，步长一致
- 1 to 10 by 3 即生成 1 到 10 的序列，步长为 3
- util 不包含上边界，to 包含上边界
- 不存储实际值，只保存 start, end, step 三个值
List 有限的不可变序列
- 为空 Nil，或包含两部分 head 元素和 tail (子 List)
- :: 根据给定 head 和 tail 构建新的 List
  - 右结合性，即从右侧开始调用 1 :: 2 :: Nil 等价于 1 :: (2 :: Nil) // 结果 `List(1,2)
- 根据 head, tail 的特性，可很容易进行递归操作
```
def multi(l: List[Int]): Int = l match {
  case Nil    => 1
  case h :: t => h * multi(t)
}
```
- 复杂度
  - 获取 head, tail 只需要常数时间 O(1)
  - 在头部添加元素也只需要常数时间 O(1)；可使用 mutable.ListBuffer 可在头部或尾部进行增/删元素操作
  - 其他操作需要线性时间 O(N)
SortedSet 有序集合，按顺序访问元素，默认实现为红黑树
immutable.BitSet 非负整数集合，底层使用 Long 数组存储
- 用较小的整型表示较大的整型，如 3,2,0 二进制表示为 1101，即十进制的 13
ListMap
- 通过键值对的 LinkedList 来表示 Map
- 多数情况下比标准的 Map 要慢，因此使用较少
  - 只有在获取第一个元素较频繁时才比较有优势 (即 List 的 head)
Stream 与 List 类似，但其元素都是延迟计算的
- 长度无限制
- 只有请求的元素会被计算
  - 可通过 force 来强制进行计算所有元素
- 通过 #:: 构造，1 #:: 2 #:: 3 #:: Stream.empty 结果为 Stream(1, ?) 此处只打印了 head 1，而 tail 未打印，因为还未计算 tail
immutable.Stack LIFO 序列
- push 入栈 , pop 出栈, top 查看栈顶元素
- 很少使用，因为其操作都可以被 List 包括(push = ::, pop = tail, top = head)
immutable.Queue FIFO 序列
- enqueue 入列，可使用集合做参数，一次性入列多个元素
- dequeue 出列，结果包含两部分 (element, rest)

Mutable

ArrayBuffer
- 包含一个 array 和 size (继承自 ResizableArray)
- 多数操作速度与 Array 相同
- 可向尾部添加元素 (恒定分摊时间，对于更大的集合也可以高效的添加元素)
ListBuffer，类似于 ArrayBuffer 但是基于链表实现
LinkedList
- 元素包含指向下一元素的链接
- 空链表元素自己指向自己
LinkedHashSet 除了 Hash 的特点外，会记录元素插入的顺序
mutable.Queue
- += 添加单个元素；++= 添加多个元素
- dequeue 移除并返回队首元素
mutable.Stack 与不可变版本相同，除了会对原数据发生修改
mutable.BitSet 直接修改原数据，更新操作比 immutable.BitSet 更高效