Map

76

JDK1.7

以下内容针对JDK1.7版本,需要确保安装了JDK1.7

在IDEA中将项目设置Project SDK、Project language level等版本改为1.7

设置 Java Compiler中需要把Use compiler from module target JDK when possible的勾去除

HashMap

1.7版本底层是使用的数组+链表

public class HashMapTest {
    public static void main(String[] args) {
        HashMap<String, String> map = new HashMap<String, String>();
        map.put("123", "2");
        map.get("123");
    }
}

了解ArrayList

ArrayList部分源码

private transient Object[] elementData; // 实际维护的数组
private static final Object[] EMPTY_ELEMENTDATA = {}; 
​
public ArrayList() {
    super(); // super为空代码块
    this.elementData = EMPTY_ELEMENTDATA; // 默认为空数组
}
​
private int size; // 实际使用的容量
​
public int size() {
    return size;
}
​
public boolean add(E e) {
    ensureCapacityInternal(size + 1); // 判断是否需要扩容
    elementData[size++] = e; // 插入到元素下标+1的位置
    return true;
}
​
/* 默认容量,该变量在AbstractList
private static final int DEFAULT_CAPACITY = 10; 
*/
​
private void ensureCapacityInternal(int minCapacity) {
    if (elementData == EMPTY_ELEMENTDATA) { // 数组为空(只调用了构造方法初始化)
        minCapacity = Math.max(DEFAULT_CAPACITY, minCapacity); // 10
    }
    ensureExplicitCapacity(minCapacity);
}
​
// 修改次数,可以通过该值判断被其它线程修改过导致线程不安全
protected transient int modCount = 0; 
​
private void ensureExplicitCapacity(int minCapacity) {
    modCount++; 
    // 如果满了则说明数组在插入元素会导致溢出,需要扩容
    if (minCapacity - elementData.length > 0) 
        grow(minCapacity);
}
​
private void grow(int minCapacity) {  // 扩容
    int oldCapacity = elementData.length;
    int newCapacity = oldCapacity + (oldCapacity >> 1);
    if (newCapacity - minCapacity < 0)
        newCapacity = minCapacity;
    if (newCapacity - MAX_ARRAY_SIZE > 0)
        newCapacity = hugeCapacity(minCapacity);
    elementData = Arrays.copyOf(elementData, newCapacity);
}

指定下标

public void add(int index, E element) {
    rangeCheckForAdd(index); // 下标是否合法,不能超过size
    ensureCapacityInternal(size + 1);
    // 复制的过程为把相对于当前插入位置(index)后面的数据都向后移动一位
    // 所以说ArrayList元素之间插入性能较低
    System.arraycopy(elementData, index, elementData, index + 1,
                     size - index);
    elementData[index] = element;
    size++;
}

ArrayList内部就是数组

如果不指定下标则依次插入,指定下标则插入下标的位置

List<String> list = new ArrayList<>();
list.add("123");
list.add(1, "123");

HashMap的下标

HashMap底层也是数组,是如何定义下标的呢

简单理解

通过key调用hashCode方法来作为下标

但是hashCode的数比较大,所以需要取余来确定下标

取余的值就是当前数组的length

当下一个hashCode取余后的值已经存在一个元素(哈希冲突),则数组该下标还会维护着一个链表

简单的链表

jdk1.7HashMap是往头部插入 一般情况下插入链表头部必然最快

但是HashMap还需要将整个链表遍历一遍,所以插在头部和插在尾部并没有区别

以下代码只是简单的链表理解,无法实现完整链表的功能

public class Node {
    // 实际维护的元素
    private Object content;
    // 链表指向的下一个元素
    private Node next;
​
    public Node(Object content, Node next) {
        this.content = content;
        this.next = next;
    }
​
    public static void main(String[] args) {
        Node header = new Node(0, null);
        // 插入尾部
        Node node = new Node(1, null);
        header.next = node;
​
        Node node2 = new Node(2, null);
        node.next = node2;
​
        // 插入头部,node5代替header成为头节点
        // 头部可以直接插入
        Node node5 = new Node(4, header);
​
        while (node5.next != null) {
            System.out.println(node5.content);
            node5 = node5.next;
        }
        System.out.println(node5.content);
        // 插入尾部需要把整个链表遍历一遍
        node5.next = new Node(123, null);
        System.out.println(node5.next.content);
    }
}

链表向下移动

每次插入一个元素并且导致哈希冲突时都加入这个链表,但是如果只是插入头部的话,这个链表是无法完整遍历的

hashmap数组

这个时候要完整遍历还需要遍历链表头部的元素

hashmap数组2

解决办法是直接将链表向下移动

hashmap数组3

伪代码

发生哈希冲突只需要生成链表,并且将数组中的Entry对象的改为链表的头节点

因为链表只需要头节点就可以实现整个链表的遍历

int hashCode = key.hashCode();
int index = hashCode % table.length;
// table[index] = new Entry(key, value, null); // 如果第一次插入
table[index] = new Entry(key, value, table[index]); // 如果已经多次插入

HashMap源码

HashMap常量
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // 16 数组初始容量
static final float DEFAULT_LOAD_FACTOR = 0.75f; // 默认负载因子 
static final int MAXIMUM_CAPACITY = 1 << 30; // 1073741824 最大数组容量
static final Entry<?,?>[] EMPTY_TABLE = {}; // 空数组
核心代码
transient int size; // HashMap存储的元素数
transient Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE; // 核心数组,默认为空
transient int modCount; // 修改次数
​
public HashMap() {
    this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR);
}
​
final float loadFactor; // 负载因子
int threshold; // 阈值
​
public HashMap(int initialCapacity, float loadFactor) {
    // 校验代码
    if (initialCapacity < 0)
        throw new IllegalArgumentException("Illegal initial capacity: " +
                                           initialCapacity);
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    if (loadFactor <= 0 || Float.isNaN(loadFactor)) // Float.isNaN(0.0f / 0.0f)
        throw new IllegalArgumentException("Illegal load factor: " +
                                           loadFactor);
    // 负载因子赋值
    this.loadFactor = loadFactor;
    threshold = initialCapacity; // 16
    init(); // HashMap的init方法为空代码块(为子类设计的方法)
}

get

public V get(Object key) {
    if (key == null)
        return getForNullKey();
    Entry<K,V> entry = getEntry(key);
    return null == entry ? null : entry.getValue();
}
​
final Entry<K,V> getEntry(Object key) {
    if (size == 0) {
        return null;
    }
    int hash = (key == null) ? 0 : hash(key);
    // 确定数组下标,循环链表
    for (Entry<K,V> e = table[indexFor(hash, table.length)];
         e != null;
         e = e.next) {
        Object k;
        // 如果为true代表找到
        if (e.hash == hash &&
            ((k = e.key) == key || (key != null && key.equals(k))))
            return e;
    }
    return null;
}
​
private V getForNullKey() {
    if (size == 0) {
        return null;
    }
    // 如果为null直接从数组[0]寻找
    for (Entry<K,V> e = table[0]; e != null; e = e.next) {
        if (e.key == null) // 为null找到
            return e.value;
    }
    return null;
}
put方法

Hash值确定下标,但是Hash值较大所以通过indexFor将值缩小(可以简单理解为取余)

通过数组的头节点开始,取链表的下一个节点,下一个节点为空跳出循环(链表最底部为空)

循环中依次判断链表中是否有Hash值相等,key是否相等的元素,如果有则覆盖并将原来的value返回

如果有重复只要找到就return,并且不会实现插入

如果没有重复的值会将整个链表遍历一遍判断是否有重复的值

头插法和尾插发性能没有区别,并且头插法还会导致链表死循环,所以1.8改为尾插法

public V put(K key, V value) {
    if (table == EMPTY_TABLE) { // 判断是否为空
        inflateTable(threshold);
    }
    if (key == null) // HashMap键可以为空
        return putForNullKey(value);
    int hash = hash(key); // 返回Hash值
    int i = indexFor(hash, table.length); // 得到数组的下标
    // 遍历链表
    for (Entry<K,V> e = table[i]; e != null; e = e.next) {
        Object k;
        // 判断是否已经有相同的key
        if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
            // 取出老value
            V oldValue = e.value;
            // 覆盖
            e.value = value;
            // 空代码块,为子类设计的方法
            e.recordAccess(this);
            // 直接返回老value,不实行插入
            return oldValue;
        }
    }
    modCount++;
    // 插入链表头部
    addEntry(hash, key, value, i);
    // 没有重复的key返回null
    return null;
}

获取数组下标

HashMap并没有直接使用取余,但是起到了类似的效果

最重要的原因是取余性能较慢,位运算较快

需要满足2个必要条件

  1. 数组不能越界

  2. 必须平均分布

数组容量减1,一般情况下数组容量为16减1为15,转换为二进制 0000 1111

hashCode假设为85,转换为二进制0101 0101

与操作的结果为 0000 0101,可以发现因为与的特性只有后四位才会被改变(同理数组扩容为32后,则只有后五位才会被改变)

后4位取值范围为0000 到 1111,即0-15

hash值的生成是完全随机的,所以同时达成了这两点要求

总而言之,h & (length-1) 只要保证length的长度是2^n的话,就可以实现取模运算

static int indexFor(int h, int length) {
    return h & (length-1);
}

初始化数组

HashMap初始化并没有直接使用传递过来的size作为数组容量而是对它进行加工

roundUpToPowerOf2 获取大于等于该数的2的幂次方数

1 -> 0000 0001 ->2的0次方

2 -> 0000 0010 ->2的1次方

4 -> 0000 0100 ->2的2次方

8 -> 0000 1000 ->2的3次方

16 -> 0001 0000 ->2的4次方

将一个数转换为2进制,如果高位为1其余为0就是2的幂次方数

左移即翻倍

  • Integer.highestOneBit 返回小于等于该数的2的幂次方数

所以需要将该数翻倍,即15变30

小于30的2的幂次方数为16

这样就找到了15大于等于该数的2的幂次方数为16

  • 至于减一是因为防止传递进来的数正好是2的幂次方数

16翻倍后为32,32的小于等于该数的2的幂次方数还是32

如果减一就可以避免这个问题,16-1=15,30的小于等于该数的2的幂次方数是16

为什么数组初始化一定要是2的幂次方数呢?

原因是indexFor没有使用取余而是位运算

所以结果必须为2的幂次方数

private void inflateTable(int toSize) { // 初始化数组
    int capacity = roundUpToPowerOf2(toSize); // 一般情况下结果为16
    threshold = (int) Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1);
    table = new Entry[capacity]; // 生成容量为capacity的Entry数组
    initHashSeedAsNeeded(capacity);
}
​
private static int roundUpToPowerOf2(int number) {
    // 大于等与0的2的幂次方数
    return number >= MAXIMUM_CAPACITY
            ? MAXIMUM_CAPACITY
          // 如果number为0则返回1,即2的0次方
          // Integer.highestOneBit返回小于等于与0的2的幂次方数
          // 所以需要将传递进去的参数减一后左移即可返回大于等与0的2的幂次方数
            : (number > 1) ? Integer.highestOneBit((number - 1) << 1) : 1;
}
​
/* Integer中的静态方法
  public static int highestOneBit(int i) {
      i |= (i >>  1);
      i |= (i >>  2);
      i |= (i >>  4);
      i |= (i >>  8);
      i |= (i >> 16);
      return i - (i >>> 1);
  }
*/

找到小于等于2的幂次方数,这种方式显然比循环效率高

  • 以17为例,17的2进制为 0001 0001 右移1位为 0000 1000,在进行或运算0001 0001,0000 1000结果为 0001 1001(或运算,有1为1)

  • 0001 1001右移2位 0000 0110,或运算结果 0001 1111

  • 0001 1111右移4位 0000 0001,或运算结果为 0001 1111

  • 0001 1111右移8位 0000 0000,或运算结果为 0001 1111

  • 0001 1111右移16位 0000 0000,或运算结果为 0001 1111

  • 0001 1111无符号右移1位结果为 0000 1111

  • 0001 1111与0000 1111相减结果为 0001 0000 转换为十进制结果为16

右移8位后数值就不在改变了,因为此处只是测试17这样较小的值

int类型32 bit,为了防止输入的是较大的数所以还需要右移8位和16位

17   -> 1 0001
>>1  -> 0 1000
|    -> 1 1001
>>2  -> 0 0110
|    -> 1 1111
>>4  -> 0 0001
|    -> 1 1111
>>8  -> 0 0000
|    -> 1 1111
>>>1 -> 0 1111
-    -> 1 0000

若有一个数为 001$ $$$$, $可能为0或1

  • 右移1位 0001 $$$$,或运算 0011 $$$$

  • 右移2位 0000 11$$,或运算 0011 11$$

  • 右移4位 0000 0011,或运算 0011 1111

  • 右移8位之后结果不变,不在列举

其实就是将一个数的最高位之后的数都变为1

最后再将这个数右移1位后相减就是要得到的值

也就是最高位后的数都变为0

Integer.highestOneBit(10); // 8
Integer.highestOneBit(16); // 16
Integer.highestOneBit(17); // 16
Integer.highestOneBit(6); // 4

添加元素

首先判断是否需要扩容

HashMap的size是否大于等于阈值并且插入的位置为空

阈值为数组长度*负载因子

扩容容量翻倍

void addEntry(int hash, K key, V value, int bucketIndex) {
    if ((size >= threshold) && (null != table[bucketIndex])) { // 判断是否大于阈值(扩容相关)
        resize(2 * table.length); // 扩容为原来的两倍
        hash = (null != key) ? hash(key) : 0;
        bucketIndex = indexFor(hash, table.length);
    }
    createEntry(hash, key, value, bucketIndex);
}
​
void createEntry(int hash, K key, V value, int bucketIndex) {
    Entry<K,V> e = table[bucketIndex];
    table[bucketIndex] = new Entry<>(hash, key, value, e); // 插入链表头部并下移
    size++;
}

扩容

void resize(int newCapacity) {
    // 记录老数组
    Entry[] oldTable = table;
    int oldCapacity = oldTable.length;
    // 如果数组最大就不扩容了
    if (oldCapacity == MAXIMUM_CAPACITY) {
        threshold = Integer.MAX_VALUE;
        return;
    }
    // 创建一个新数组
    Entry[] newTable = new Entry[newCapacity];
    // 转移
    transfer(newTable, initHashSeedAsNeeded(newCapacity));
    // 替代原数组
    table = newTable;
    threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
}

转移

将老数组上的元素全部转移到新数组上

调用indexFor,新数组下标有两种情况

  • 与原数组下标相同

如数组扩容后hash值为69与新数组长度32,0100 0101 与 0001 1111 结果为 0000 0101

  • 与原数组下标翻倍

如数组扩容后hash值为85与新数组长度32,0101 0101 与 0001 1111 结果为 0001 0101

插入依然使用的是头插法

将原链表的尾部插入新链表的头部导致顺序相反

void transfer(Entry[] newTable, boolean rehash) {
    int newCapacity = newTable.length;
    // 循环数组
    for (Entry<K,V> e : table) {
        // 循环链表
        while(null != e) {
            // e当前元素,next链表的下一个元素
            Entry<K,V> next = e.next;
            if (rehash) {
                e.hash = null == e.key ? 0 : hash(e.key);
            }
            // 通过新数组长度与hash值算出新的下标
            int i = indexFor(e.hash, newCapacity);
            // 当前元素next指向新数组
            e.next = newTable[i];
            // 将新数组指向当前元素(下移)
            newTable[i] = e;
            // 指向原链表的下一个元素(下次循环)
            e = next;
        }
    }
}

当前Entry指向新数组

转移1

下移

转移2

准备下一次循环

转移3

键为空的插入

如果插入的键为null会存在数组的第0位,直接return不再调用hash等方法

遍历数组的第0位的链表

key为null并不代表数组第0位只有一个元素

因为其它的key也可能存在第0位,所以还是需要遍历

/* put方法
if (key == null)
  return putForNullKey(value); 
*/            
private V putForNullKey(V value) {
    // 和put类似
    for (Entry<K,V> e = table[0]; e != null; e = e.next) {
        if (e.key == null) {
            V oldValue = e.value;
            e.value = value;
            e.recordAccess(this);
            return oldValue;
        }
    }
    modCount++;
    // hash值,bucketIndex固定为0
    addEntry(0, null, value, 0);
    return null;
}

获取hash

hashCode是使用的Object并且可能会被重写,所以需要进行一系列异或操作让hash值更加散列

防止不同hash值的高位不同但低位相同导致的hash冲突

不断的右移让高位也参与进来

防止大量哈希碰撞导致链表过长

异或 不同为1相同为0

比起与、或,异或可以更加任意的改变高位的数值

transient int hashSeed = 0; // hash种子
​
final int hash(Object k) {
    int h = hashSeed;
    if (0 != h && k instanceof String) {
        return sun.misc.Hashing.stringHash32((String) k);
    }
    h ^= k.hashCode(); // 让生成的hash值更加散列
    h ^= (h >>> 20) ^ (h >>> 12);
    return h ^ (h >>> 7) ^ (h >>> 4);
}

多线程情况下Hashmap可能会导致循环链表

假设有2个线程,HashMap数组扩容后长度为4,内有链表为1、2、3

每个线程都会执行resize方法,并且生成局部变量数组

Entry[] newTable = new Entry[newCapacity];

第一个线程扩容完成,链表内的元素为3、2、1

此时的e为1,next为2

因为此时使用的是老数组的e和next

table = newTable; // 最后赋值给成员变量

而第二个线程还再进行扩容操作

int newCapacity = newTable.length; // 4
// 开始循环链表
Entry<K,V> next = e.next; // 线程2在此处因为CPU分配暂时暂停
int i = indexFor(e.hash, newCapacity); // 获取下标
e.next = newTable[i]; // 指向newTable[i]
newTable[i] = e; // 下移
e = next;
// 第二次循环
Entry<K,V> next = e.next;
int i = indexFor(e.hash, newCapacity);
e.next = newTable[i]; // 正好相等
newTable[i] = e; // 下移
e = next;
// 第三次循环
Entry<K,V> next = e.next;  // 指向null
int i = indexFor(e.hash, newCapacity);
e.next = newTable[i]; // 重写指向头元素(出现问题,导致循环链表)
newTable[i] = e; // 向上移动
e = next; // 指向null,循环结束
​
table = newTable; // 最后将问题数组赋值给成员变量 

转移的时候不直接移动链表头部(这样只需要一次移动,就能转移整个链表)

原因是移动链表只是其中一个原因,更重要的是为了减少链表的长度(转移后的元素可能在原来的下标也有可能在原来的下标*2)

插入到新数组的位置和老数组不一定相等

Hash种子

初始化数组inflateTable和数组扩容resize会调用方法

作用是使之后生成的hash值更散列

int h = hashSeed;
h ^= k.hashCode();

hashSeed默认等于false,HashMap中只有该方法才会改变hashSeed的值

第一次调用hashSeed一定为0,所以只有useAltHashing为false,hashSeed才会被改变

final boolean initHashSeedAsNeeded(int capacity) { // capacity为数组的容量
    boolean currentAltHashing = hashSeed != 0;
    boolean useAltHashing = sun.misc.VM.isBooted() &&
            // 大于等于数组容量 
            (capacity >= Holder.ALTERNATIVE_HASHING_THRESHOLD);
    boolean switching = currentAltHashing ^ useAltHashing;
    if (switching) { // 为true才会改变hashSeed
        hashSeed = useAltHashing  // 生成hashSeed
            ? sun.misc.Hashing.randomHashSeed(this)
            : 0;
    }
    return switching;
}

只有改变该环境变量hashSeed才会发生改变

并且新数组容量 >= jdk.map.althashing.threshold才会生成hashSeed

-Djdk.map.althashing.threshold=3

modCount

以下代码在第2次循环时会导致java.util.ConcurrentModificationException

增加for循环就是语法糖,内部就是迭代器

每put一次modCount+1,此时modCount为2

HashIterator中的expectedModCount也为2

第一次循环判断使相等的,所以没有抛出异常

第二次不相等所以抛出异常

解决方法使用迭代器的remove方法

HashMap和keySet的remove方法都可以通过传递key参数删除任意的元素,而iterator只能删除当前元素

如果没有通过modCount、expectedModCount的比较实现快速失败抛出异常,下次循环该元素将成为current指向,此时iterator就遍历了一个已移除的过期数据

并且该方法也可以在一定情况下防止线程不安全的情况发生(一个线程删,一个线程读取)

快速失效是一种能立刻报告表明故障的情况,设计用于立刻停止操作,而不是试图继续可能存在缺陷的过程(注意是可能而不是一定)。也就是说modcount只能提出问题,而无法解决问题,一个线 程不安全的类能够被多个线程同时访问这种设计本身就不合理

HashMap<String, String> map = new HashMap<>();
map.put("1", "2");
map.put("2", "2");
​
Iterator var2 = map.keySet().iterator();
while(var2.hasNext()) {
    String key = (String)var2.next();
    if ("2".equals(key)) {
        map.remove(key);
    }
}

remove

modCount为修改次数为3

但是expectedModCount依然为2所以抛出了异常

public V remove(Object key) {
    Entry<K,V> e = removeEntryForKey(key);
    return (e == null ? null : e.value);
}
​
final Entry<K,V> removeEntryForKey(Object key) {
    if (size == 0) {
        return null;
    }
    // 获取hash值和数组下标
    int hash = (key == null) ? 0 : hash(key);
    int i = indexFor(hash, table.length);
    Entry<K,V> prev = table[i];
    Entry<K,V> e = prev;
    // 遍历链表
    while (e != null) {
        Entry<K,V> next = e.next;
        Object k;
        // 找到了
        if (e.hash == hash &&
            ((k = e.key) == key || (key != null && key.equals(k)))) {
            modCount++; // modCount++
            size--;
            // 将该元素从链表移除
            if (prev == e)
                table[i] = next;
            else
                prev.next = next;
            e.recordRemoval(this);
            return e;
        }
        prev = e;
        e = next;
    }
    return e;
}

KeySet

部分代码

transient volatile Set<K> keySet = null;
​
public Set<K> keySet() {
    Set<K> ks = keySet;
    return (ks != null ? ks : (keySet = new KeySet()));
}
​
private final class KeySet extends AbstractSet<K> {
    public Iterator<K> iterator() {
        return newKeyIterator(); // 返回一个迭代器
    }
}

迭代器

Iterator<K> newKeyIterator()   {
    return new KeyIterator();
}
​
// 调用该内部类时还会调用父类构造方法
private final class KeyIterator extends HashIterator<K> {
    public K next() {
        return nextEntry().getKey();
    }
}

HashIterator

部分代码

KeyIterator的父类

使用它迭代起的remove则不会抛出异常

private abstract class HashIterator<E> implements Iterator<E> {
    Entry<K,V> next;
    int expectedModCount; 
    int index;  
    Entry<K,V> current;
    HashIterator() {
        // expectedModCount赋值
        expectedModCount = modCount;
        if (size > 0) {
            Entry[] t = table;
            while (index < t.length && (next = t[index++]) == null)
                ;
        }
    }
    public final boolean hasNext() {
        return next != null;
    }
    final Entry<K,V> nextEntry() {
        // 判断modCount和expectedModCount是否不相等
        if (modCount != expectedModCount)
            throw new ConcurrentModificationException();
        Entry<K,V> e = next;
        if (e == null)
            throw new NoSuchElementException();
        if ((next = e.next) == null) {
            Entry[] t = table;
            while (index < t.length && (next = t[index++]) == null)
                ;
        }
        current = e;
        return e;
    }
    // 迭代器的remove方法
    public void remove() {
        if (current == null)
            throw new IllegalStateException();
        if (modCount != expectedModCount)
            throw new ConcurrentModificationException();
        Object k = current.key;
        current = null;
        HashMap.this.removeEntryForKey(k);
        // 重新赋值modCount,使用迭代器remove则不会出现异常
        expectedModCount = modCount;
    }
}
Entry

entry可以直接理解为链表

部分代码

static class Entry<K,V> implements Map.Entry<K,V> {
    final K key; // key
    V value; // value 
    Entry<K,V> next; // 下一个元素
    int hash; // hash值
​
    Entry(int h, K k, V v, Entry<K,V> n) {
        value = v;
        next = n;
        key = k;
        hash = h;
    }
}

ConcurrentHashMap

HashMap使非线程安全的

了解HashTable

  • HashTable都添加了synchronized代码块解决并发问题

  • Hashtable是一个保留类,很老旧的类,性能很低,很多地方没有考虑性能

  • 并发安全建议使用ConcurrentHashMap来代替HashTable

    使用了大量取余

int index = (hash & 0x7FFFFFFF) % tab.length;

ConcurrentHashMap源码

ConcurrentHashMap内部为分段数组

ConcurrentHashMap内有Segment[]属性,Segement内有HashEntry[]属性

HashEntry的长度可以简单理解为根据initialCapacity / concurrencyLevel

常量
static final int DEFAULT_INITIAL_CAPACITY = 16; // 默认初始化容量(每个分段长度)
static final int DEFAULT_CONCURRENCY_LEVEL = 16; // 默认并发级别
static final float DEFAULT_LOAD_FACTOR = 0.75f; // 默认加载因子
static final int MIN_SEGMENT_TABLE_CAPACITY = 2; // 每个Segment内HashEntry数组最小为2
核心代码

算出ssize的值,ssize只要小于并发级别就左移

循环找到大于等于并发级别的2的幂次方数

如果调用默认构造方法则sshift为4,ssize为16

计算c的值

initialCapacity为所有HashEntry的长度,ssize为Segment的长度

为确保每个Segment的HashEntry数量相等,可能需要加1。即Segment长度16,HashEntry总长度却为33,也需要加1,1个Segment对应3个HashEntry

ConcurrentHashMap只要求初始化时HashEntry长度数量一致(放入Segment[0]),之后扩容只会扩容对应的Segment内的HashEntry数组

结算cap的值

c无法直接使用为Segment数组的容量,需要加工为2的幂次方

Segment[0]是原型

public ConcurrentHashMap() {
    // 默认长度 加载因子 并发级别
    this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR, DEFAULT_CONCURRENCY_LEVEL);
}
​
public ConcurrentHashMap(int initialCapacity,
                         float loadFactor, int concurrencyLevel) {
    // 校验代码
    if (!(loadFactor > 0) || initialCapacity < 0 || concurrencyLevel <= 0)
        throw new IllegalArgumentException();
    if (concurrencyLevel > MAX_SEGMENTS)
        concurrencyLevel = MAX_SEGMENTS;
    // ssize只要小于并发级别就左移
    int sshift = 0;
    int ssize = 1; 
    while (ssize < concurrencyLevel) { 
        ++sshift;
        ssize <<= 1;
    }
    this.segmentShift = 32 - sshift;
    this.segmentMask = ssize - 1; // 获取segment数组的下标
    // 校验代码
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    int c = initialCapacity / ssize;
    if (c * ssize < initialCapacity) // c*ssize为理论HashEntry的总长度
        ++c; // 向上取整
    int cap = MIN_SEGMENT_TABLE_CAPACITY; // 最小为2
    while (cap < c)
        cap <<= 1; // 结果为2的幂次方
    // 创建Segment对象
    Segment<K,V> s0 =
        new Segment<K,V>(loadFactor, (int)(cap * loadFactor),
                         (HashEntry<K,V>[])new HashEntry[cap]);
    // 创建Segment数组
    Segment<K,V>[] ss = (Segment<K,V>[])new Segment[ssize];
    // 把Segment放在Segment[0]
    UNSAFE.putOrderedObject(ss, SBASE, s0);
    this.segments = ss;
}
put

key和value均不能为空

public V put(K key, V value) {
    Segment<K,V> s;
    if (value == null)
        throw new NullPointerException();
    int hash = hash(key);
    // 该Segment数组下标是否为空
    int j = (hash >>> segmentShift) & segmentMask;
    if ((s = (Segment<K,V>)UNSAFE.getObject 
         (segments, (j << SSHIFT) + SBASE)) == null)
        s = ensureSegment(j);
    return s.put(key, hash, value, false);
}

ensureSegment

CAS保证只有一个线程可以对这个Segment赋值

private Segment<K,V> ensureSegment(int k) {
    final Segment<K,V>[] ss = this.segments;
    long u = (k << SSHIFT) + SBASE;
    Segment<K,V> seg;
    // 判断该位置是否为空
    if ((seg = (Segment<K,V>)UNSAFE.getObjectVolatile(ss, u)) == null) {
        Segment<K,V> proto = ss[0]; // 从Segment[0]是原型取出
        int cap = proto.table.length;
        float lf = proto.loadFactor;
        int threshold = (int)(cap * lf);
        HashEntry<K,V>[] tab = (HashEntry<K,V>[])new HashEntry[cap];
        // 再次判断是否为空,如果为空创建 
        if ((seg = (Segment<K,V>)UNSAFE.getObjectVolatile(ss, u)) == null) { 
            Segment<K,V> s = new Segment<K,V>(lf, threshold, tab);
            // 只是new并没有放入Segment,依然需要判断该位置是否为空
            while ((seg = (Segment<K,V>)UNSAFE.getObjectVolatile(ss, u)) == null) {
                // CAS自旋,为null则赋值
                if (UNSAFE.compareAndSwapObject(ss, u, null, seg = s))
                    break;
            }
        }
    }
    return seg;
}
Segment

可以理解为HashMap

put

tryLock

尝试加锁(不会阻塞),如果获取到返回true,否则返回false

如果失败则调用scanAndLockForPut

与lock的区别为,如果无法获取锁会阻塞直到获取到锁

遍历HashEntry下的链表,如果位置不为空则插入

插入使用了UNSAFE.putOrderedObject是直接改变内存中的值,而tab[index]改动的只是当前线程的值

onlyIfAbsent

是否校验key已经重复(put方法为关闭校验,putIfAbsent方法为开启)

若校验,则key重复也不会更新value

final V put(K key, int hash, V value, boolean onlyIfAbsent) {
    // 加锁
    HashEntry<K,V> node = tryLock() ? null :
        scanAndLockForPut(key, hash, value);
    V oldValue;
    try {
        HashEntry<K,V>[] tab = table;
        int index = (tab.length - 1) & hash;
        HashEntry<K,V> first = entryAt(tab, index);
        for (HashEntry<K,V> e = first;;) { // 遍历链表 
            if (e != null) {
                K k;
                if ((k = e.key) == key ||
                    (e.hash == hash && key.equals(k))) { // 存在覆盖
                    oldValue = e.value;
                    if (!onlyIfAbsent) { // 此处为false
                        e.value = value;
                        ++modCount;
                    }
                    break;
                }
                e = e.next;
            }
            // e为null则代表进入链表尾部
            else {
                if (node != null)
                    node.setNext(first);
                else
                    // 放入指定位置(头插法)
                    node = new HashEntry<K,V>(hash, key, value, first);
                int c = count + 1; // 内部的size
                // HashEntry内的扩容
                if (c > threshold && tab.length < MAXIMUM_CAPACITY)
                    rehash(node);
                else
                    // 将HashEntry改为链表的新头节点
                    setEntryAt(tab, index, node);
                ++modCount;
                count = c;
                oldValue = null;
                break;
            }
        }
    } finally {
        // 解锁
        unlock();
    }
    return oldValue;
}

scanAndLockForPut

不断尝试获取锁

第一次循环retries为-1

private HashEntry<K,V> scanAndLockForPut(K key, int hash, V value) {
    // 取当前Hash值的下标
    HashEntry<K,V> first = entryForHash(this, hash);
    HashEntry<K,V> e = first;
    HashEntry<K,V> node = null;
    int retries = -1;
    while (!tryLock()) {
        HashEntry<K,V> f;
        if (retries < 0) {
            if (e == null) {
                // 遍历到链表尾部则创建HashEntry
                if (node == null)
                    node = new HashEntry<K,V>(hash, key, value, null);
                retries = 0;
            }
            else if (key.equals(e.key))
                retries = 0;
            else
                e = e.next;
        }
        // 如果超过则强制加锁
        else if (++retries > MAX_SCAN_RETRIES) {
            lock();
            break;
        }
        // 代表
        else if ((retries & 1) == 0 &&
                 (f = entryForHash(this, hash)) != first) {
            e = first = f;
            retries = -1;
        }
    }
    return node;
}