优化 Spring Cloud Sleuth + Zipkin：打造高性能微服务链路追踪

2025/6/15 19:56:43 41 0 0 0

在微服务架构中，链路追踪是诊断性能瓶颈、排查错误和理解服务间依赖关系的关键工具。Spring Cloud Sleuth 和 Zipkin 是两个流行的链路追踪解决方案，它们能够帮助开发者轻松地收集和分析微服务调用链的数据。然而，在高并发、低延迟的微服务场景下，默认配置往往无法满足需求，需要进行精细的优化。

为什么需要优化 Sleuth 和 Zipkin？

性能损耗： Sleuth 在每个服务调用中都会增加额外的处理逻辑，例如生成 Trace ID 和 Span ID，并将这些信息传递到下游服务。在高并发场景下，这些额外的开销会显著增加服务的响应时间。
数据量过大： 默认配置下，Sleuth 会收集大量的追踪数据，包括每个 HTTP 请求、消息队列操作、数据库查询等。这些数据会迅速增长，给 Zipkin 存储和查询带来压力。
采样偏差： 默认的采样策略可能会导致某些关键链路的追踪数据丢失，从而影响问题排查的准确性。
配置不灵活： 默认配置可能无法满足特定的业务需求，例如只追踪特定类型的请求，或者根据请求的属性动态调整采样率。

优化策略

为了解决上述问题，我们需要从以下几个方面对 Sleuth 和 Zipkin 进行优化：

调整采样策略

采样策略是影响 Sleuth 性能和数据量的关键因素。合理的采样策略可以在保证追踪数据完整性的前提下，有效地降低性能损耗。

基于概率的采样： 这是 Sleuth 默认的采样策略，通过设置一个采样率（例如 0.1），随机地选择一部分请求进行追踪。在高并发场景下，可以适当降低采样率，以减少数据量。Sleuth 提供了 spring.sleuth.sampler.probability 属性来配置采样率。
```
 spring:
  sleuth:
    sampler:
      probability: 0.05 # 设置采样率为 5%
```
基于百分比的采样： 与基于概率的采样类似，也是随机选择一部分请求进行追踪。不同之处在于，基于百分比的采样可以保证在一定的时间范围内，追踪的请求数量达到设定的百分比。Sleuth 提供了 spring.sleuth.sampler.percentage 属性来配置采样百分比。

自定义采样器： 如果需要更精细的采样控制，可以实现 Sampler 接口，自定义采样逻辑。例如，可以根据请求的 URL、HTTP 方法、用户 ID 等属性来决定是否进行追踪。

 @Bean
public Sampler customSampler() {
    return new Sampler() {
        @Override
        public boolean isSampled(SpanContext parent) {
            // 自定义采样逻辑
            if (RequestContextHolder.getRequestAttributes() != null) {
                HttpServletRequest request = ((ServletRequestAttributes) RequestContextHolder.getRequestAttributes()).getRequest();
                String uri = request.getRequestURI();
                // 只追踪 /api/v1/ 路径下的请求
                return uri.startsWith("/api/v1/");
            }
            return false;
        }
    };
}

异步上报追踪数据

默认情况下，Sleuth 会在每个服务调用结束后，同步地将追踪数据上报到 Zipkin。在高并发场景下，这会增加服务的响应时间。为了解决这个问题，可以将追踪数据的上报改为异步方式。

使用消息队列： 将追踪数据发送到消息队列（例如 Kafka、RabbitMQ），然后由专门的消费者服务将数据上报到 Zipkin。这种方式可以有效地解耦服务和 Zipkin，提高系统的吞吐量。

 @Configuration
public class SleuthConfig {
 
    @Bean
    public Reporter<Span> spanReporter(KafkaTemplate<String, String> kafkaTemplate) {
        return new AsyncReporter(kafkaTemplate);
    }
 
    static class AsyncReporter implements Reporter<Span> {
 
        private final KafkaTemplate<String, String> kafkaTemplate;
 
        AsyncReporter(KafkaTemplate<String, String> kafkaTemplate) {
            this.kafkaTemplate = kafkaTemplate;
        }
 
        @Override
        public void report(Span span) {
            try {
                kafkaTemplate.send("zipkin", new ObjectMapper().writeValueAsString(span));
            } catch (JsonProcessingException e) {
                // 处理异常
            }
        }
    }
}

需要在 application.yml 中配置 Kafka 相关信息：

 spring:
  kafka:
    bootstrap-servers: localhost:9092
    producer:
      key-serializer: org.apache.kafka.common.serialization.StringSerializer
      value-serializer: org.apache.kafka.common.serialization.StringSerializer

同时，需要创建一个 Kafka 消费者服务，将 Kafka 中的数据上报到 Zipkin。

使用 Spring Cloud Stream： Spring Cloud Stream 提供了更便捷的方式来集成消息队列。可以通过 Spring Cloud Stream 将 Sleuth 的追踪数据发送到 Kafka 或 RabbitMQ，然后由 Zipkin Collector 消费这些数据。

 @EnableBinding(Source.class)
@Configuration
public class SleuthConfig {
 
    @Autowired
    private Source source;
 
    @Bean
    public Reporter<Span> spanReporter() {
        return new AsyncReporter(source);
    }
 
    static class AsyncReporter implements Reporter<Span> {
 
        private final Source source;
 
        AsyncReporter(Source source) {
            this.source = source;
        }
 
        @Override
        public void report(Span span) {
            source.output().send(MessageBuilder.withPayload(span).build());
        }
    }
}

需要在 application.yml 中配置 Spring Cloud Stream 和 Kafka 相关信息：

 spring:
  cloud:
    stream:
      bindings:
        output:
          destination: zipkin
          content-type: application/json
      kafka:
        binder:
          brokers: localhost:9092

精简追踪数据

Sleuth 默认会收集大量的追踪数据，包括 HTTP 请求头、消息队列的元数据、数据库查询语句等。这些数据对于问题排查可能并不重要，而且会增加 Zipkin 的存储压力。可以通过配置 Sleuth，只收集必要的数据。

忽略不需要的 HTTP 请求头： Sleuth 提供了 spring.sleuth.http.ignored-patterns 属性，可以配置需要忽略的 HTTP 请求头。例如，可以忽略包含敏感信息的请求头，或者忽略与业务逻辑无关的请求头。
```
 spring:
  sleuth:
    http:
      ignored-patterns: Content-Type, Authorization
```

自定义 Span Enhancer： 可以实现 SpanEnhancer 接口，自定义 Span 的增强逻辑。例如，可以只记录特定类型的数据库查询语句，或者只记录特定类型的消息队列操作。

 @Bean
public SpanEnhancer customSpanEnhancer() {
    return new SpanEnhancer() {
        @Override
        public void enhance(Span.Builder spanBuilder, String spanName, SpanContext parent) {
            // 自定义 Span 增强逻辑
            if (spanName.equals("jdbc.query")) {
                // 只记录 SELECT 语句
                if (!spanName.toLowerCase().startsWith("select")) {
                    spanBuilder.name("jdbc.query.filtered");
                }
            }
        }
    };
}

优化 Zipkin 配置

Zipkin 的配置也会影响链路追踪的性能和可用性。需要根据实际的业务场景，对 Zipkin 的配置进行优化。

调整存储策略： Zipkin 支持多种存储后端，包括内存、MySQL、Cassandra、Elasticsearch 等。在高并发场景下，建议使用高性能的存储后端，例如 Cassandra 或 Elasticsearch。同时，需要根据数据量的大小，合理地配置存储空间和索引。
优化查询性能： Zipkin 提供了多种查询接口，包括基于 Trace ID 的查询、基于 Span 名称的查询、基于时间范围的查询等。为了提高查询性能，可以对 Zipkin 的索引进行优化，例如增加索引字段、调整索引类型等。
配置缓存： Zipkin 可以配置缓存，将常用的查询结果缓存起来，以减少数据库的访问次数。可以通过 zipkin.query.max-span-count 和 zipkin.query.lookback 属性来配置缓存的大小和过期时间。

监控和告警

为了及时发现和解决链路追踪的问题，需要对 Sleuth 和 Zipkin 进行监控和告警。

监控 Sleuth 的性能指标： 例如采样率、上报延迟、错误率等。可以使用 Micrometer 等监控工具来收集这些指标，并使用 Prometheus 等监控系统来展示和分析这些指标。
监控 Zipkin 的性能指标： 例如存储空间使用率、查询响应时间、错误率等。可以使用 Zipkin 自带的监控接口来收集这些指标，并使用 Grafana 等监控系统来展示和分析这些指标。
配置告警规则： 根据监控指标的阈值，配置告警规则。例如，当采样率低于某个阈值时，或者当 Zipkin 的查询响应时间超过某个阈值时，发送告警通知。

最佳实践

根据业务场景选择合适的采样策略： 对于关键业务，可以采用较高的采样率；对于非关键业务，可以采用较低的采样率。
尽可能地异步上报追踪数据： 避免同步上报对服务性能的影响。
只收集必要的追踪数据： 减少 Zipkin 的存储压力。
使用高性能的存储后端： 例如 Cassandra 或 Elasticsearch。
对 Zipkin 的索引进行优化： 提高查询性能。
配置缓存： 减少数据库的访问次数。
对 Sleuth 和 Zipkin 进行监控和告警： 及时发现和解决问题。

案例分析

假设有一个电商平台的微服务架构，包括用户服务、商品服务、订单服务、支付服务等。在高并发场景下，链路追踪数据量非常大，给 Zipkin 带来了很大的压力。

为了解决这个问题，可以采取以下优化措施：

调整采样策略： 对于用户服务和商品服务，采用较低的采样率（例如 0.01）；对于订单服务和支付服务，采用较高的采样率（例如 0.1）。
异步上报追踪数据： 使用 Kafka 将 Sleuth 的追踪数据发送到 Zipkin Collector。
精简追踪数据： 忽略不需要的 HTTP 请求头，只记录关键的数据库查询语句。
使用 Elasticsearch 作为 Zipkin 的存储后端： 并对 Elasticsearch 的索引进行优化。
配置 Zipkin 的缓存： 减少数据库的访问次数。
对 Sleuth 和 Zipkin 进行监控和告警： 及时发现和解决问题。

通过以上优化措施，可以有效地降低链路追踪的性能损耗，提高追踪数据的准确性和可用性，从而更好地支持电商平台的业务发展。

总结

Spring Cloud Sleuth 和 Zipkin 是强大的链路追踪工具，但默认配置在高并发、低延迟的微服务场景下可能无法满足需求。通过调整采样策略、异步上报追踪数据、精简追踪数据、优化 Zipkin 配置、监控和告警等手段，可以有效地提升链路追踪的性能和可用性，为微服务架构的稳定运行保驾护航。

微服务架构师李明 Spring Cloud Sleuth Zipkin 微服务链路追踪

	spring:
	sleuth:
	sampler:
	probability: 0.05 # 设置采样率为 5%

	@Bean
	public Sampler customSampler() {
	return new Sampler() {
	@Override
	public boolean isSampled(SpanContext parent) {
	// 自定义采样逻辑
	if (RequestContextHolder.getRequestAttributes() != null) {
	HttpServletRequest request = ((ServletRequestAttributes) RequestContextHolder.getRequestAttributes()).getRequest();
	String uri = request.getRequestURI();
	// 只追踪 /api/v1/ 路径下的请求
	return uri.startsWith("/api/v1/");
	}
	return false;
	}
	};
	}

	@Configuration
	public class SleuthConfig {

	@Bean
	public Reporter<Span> spanReporter(KafkaTemplate<String, String> kafkaTemplate) {
	return new AsyncReporter(kafkaTemplate);
	}

	static class AsyncReporter implements Reporter<Span> {

	private final KafkaTemplate<String, String> kafkaTemplate;

	AsyncReporter(KafkaTemplate<String, String> kafkaTemplate) {
	this.kafkaTemplate = kafkaTemplate;
	}

	@Override
	public void report(Span span) {
	try {
	kafkaTemplate.send("zipkin", new ObjectMapper().writeValueAsString(span));
	} catch (JsonProcessingException e) {
	// 处理异常
	}
	}
	}
	}

	spring:
	kafka:
	bootstrap-servers: localhost:9092
	producer:
	key-serializer: org.apache.kafka.common.serialization.StringSerializer
	value-serializer: org.apache.kafka.common.serialization.StringSerializer

	@EnableBinding(Source.class)
	@Configuration
	public class SleuthConfig {

	@Autowired
	private Source source;

	@Bean
	public Reporter<Span> spanReporter() {
	return new AsyncReporter(source);
	}

	static class AsyncReporter implements Reporter<Span> {

	private final Source source;

	AsyncReporter(Source source) {
	this.source = source;
	}

	@Override
	public void report(Span span) {
	source.output().send(MessageBuilder.withPayload(span).build());
	}
	}
	}

	spring:
	cloud:
	stream:
	bindings:
	output:
	destination: zipkin
	content-type: application/json
	kafka:
	binder:
	brokers: localhost:9092

	spring:
	sleuth:
	http:
	ignored-patterns: Content-Type, Authorization

	@Bean
	public SpanEnhancer customSpanEnhancer() {
	return new SpanEnhancer() {
	@Override
	public void enhance(Span.Builder spanBuilder, String spanName, SpanContext parent) {
	// 自定义 Span 增强逻辑
	if (spanName.equals("jdbc.query")) {
	// 只记录 SELECT 语句
	if (!spanName.toLowerCase().startsWith("select")) {
	spanBuilder.name("jdbc.query.filtered");
	}
	}
	}
	};
	}

优化 Spring Cloud Sleuth + Zipkin：打造高性能微服务链路追踪

评论点评