多线程处理大数据量数据

您所在的位置:网站首页 java多线程读取数据 多线程处理大数据量数据

多线程处理大数据量数据

2024-07-15 23:03| 来源: 网络整理| 查看: 265

最近公司需要一个新的需求,需要一个接口去跑数据。数据量还蛮大的,大约50-60万数据(一条一条执行),其中还涉及到与其他接口的交互,因此这些数据跑下来要耗时很久,因此设计了一个方案,使用多线程的方式进行处理。

方案1 

  每次重数据库表中取一定量的数据(自己按实际情况定义)放在线程池缓存队列里,启动10个线程去线程池里去取数据。(相当于生产者和消费者的关系),这里需要有一个触发点,当我缓存里没有数据时,需要再次从数据库中再次获取数据。

方案2 

  在数据库表中添加一个线程号字段,用来记录该条数据被哪条线程所执行,创建线程池,一次启动10个线程去数据库表中更新自己需要处理的数据(相当于占位符一样,先把数据拿过来),我每个线程每次取1000条数据(每条数据更新线程号+状态),数据库更新操作是原子性的,不会出现更新同一数据的情况,10个线程依次去执行逻辑操作,每个线程处理完自己所占用的1000条数据后,再去数据库取1000条数据,直到数据库中没有需要处理的数据,跳出线程循环。  因为涉及到多个线程异步处理数据,异步处理结束后需要统一处理一些逻辑。所有代码中我使用了线程池中的CountDownLatch计数器来调度主线程和子线程。

注:

线程池的概念是初始化线程池时在池中创建空闲的线程,一但有工作任务,可直接使用线程池中的线程进行执行工作任务,任务执行完成后又返回线程池中成为空闲线程。使用线程池可以减少线程的创建和销毁,提高性能。

举个例子:我是一个包工头,代表线程池,手底下有若干工人代表线程池中的线程。如果我没接到项目,那么工人就相当于线程池中的空闲线程,一但我接到了项目,我可以立刻让我手下的工人去工作,每个工人同一时间执行只执行一个工作任务,执行完了就去执行另一个工作任务,知道没有工作任务了,这时工人就可以休息了(原谅我让工人无休止的工作),也就是又变成了线程池中的空闲线程池。

队列作为一个缓冲的工具,当没有足够的线程去处理任务时,可以将任务放进队列中,以队列先进先出的特性来执行工作任务

逻辑代码如下

package com.macro.mall.component; import org.apache.commons.collections.CollectionUtils; import java.util.ArrayList; import java.util.List; import java.util.concurrent.*; public class ThreadPoolUtils { private ThreadPoolUtils(){} private static final ThreadPoolExecutor EXECUTOR = new ThreadPoolExecutor(10,10,0L, TimeUnit.MINUTES,new LinkedBlockingQueue()); public static ThreadPoolExecutor getThreadPool(){ return EXECUTOR; } } class ThreadPoolDemo { public static void main(String[] args) { //单例模式创建线程池 ThreadPoolExecutor threadPool = ThreadPoolUtils.getThreadPool(); //计数器设置为10个,用来调度主线程和子线程之间关系 CountDownLatch downLatch = new CountDownLatch(10); for (int i = 0; i < 10; i++) { threadPool.submit(() -> { try { while (true) { //处理逻辑 先去数据库更新1000条数据 //查询数据,若查询出的数据为空,直接break List datas = new ArrayList(); if (CollectionUtils.isEmpty(datas)) { break; } } }finally { downLatch.countDown(); } }); } try { //阻碍主线程,等所有子线程完成 再去执行下面操作 downLatch.await(); //处理逻辑 } catch (Exception e) { Thread.interrupted(); e.printStackTrace(); } } }

CountDownLatch是一个非常好用的多线程控制工具类,代码中调用CountDownLatch中的countdown方法就是通知CountDownLatch一个线程已经完成了任务,倒计时器可以减1,调用await方法即要求主线程等待所有的(代码中为10个线程)任务全部执行完成,待10个线程全部执行完成后,主线程才能继续执行。当然,我们也可以使用循环栅栏CyclicBarrier来实现,它比CountDownLatch要更加复杂且强大(感兴趣可自行查阅资料)。

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3