银河航天

20/01/2023 00:48

点击量：次

网随云动

aPAAS

iPAAS

IaaS

SaaS

CNCF

使用说明与答题准则（先读这一页）

本题库按银河航天该 JD 的技术栈（Golang / 云原生 / K8s / 微服务 / Etcd / Consul / Vue / 全栈 / GIS / 卫星测运控）反推，结合两个真实项目源码与 4A（业务 BA / 应用 AA / 数据 DA / 技术 TA）+ TOGAF ADM 方法论编写。每道题答案都按以下 P8 六要素 组织，缺一不可：

全局视野：不只说技术实现，要落到对业务 / 组织的价值。
取舍判断：为什么选这个方案、放弃了什么、代价是什么。
数据支撑：引用简历里的具体数字（均为压测 / 场景限定口径）。
踩坑经历：用 backbone-controller 或 sword 的真实问题与解法。
方法论：抽象出一条可复用的原则或决策框架。
反吹嘘风格：只主张能 defend 的版本，数字带场景限定，不滥用「最」「百分百」「彻底」这类绝对化词。

风险提示（来自投递备注）：本岗位属航天·军工 + 国家信创园，面试官大概率深挖三点 —— (a) 卫星 / 遥感行业 know-how；(b) 信创国产化栈（麒麟 OS / 鲲鹏 / 达梦）与保密 / 政审适配；(c) 前端工程深度（NodeJS 非主力）。统一应对口径：以「自动化本科 + 中科航宇控制系统 + 网络测控同构经验」搭桥行业 gap，明确定位为「后端 / 云原生为主、全栈可补位」，对前端深度与卫星行业经验做诚实预期管理，不过度承诺。

一、技术深度题（12 题）——JD 核心技术栈底层原理 / 源码级理解

Q1｜Go 的 GMP 调度模型讲一下，你在生产里怎么定位过 goroutine 泄漏？

考察：Golang 运行时底层 + 实战排障

GMP 是 Go 调度的三层抽象：G 是 goroutine（用户态轻量协程，初始栈 2KB 可伸缩），M 是 OS 线程，P 是逻辑处理器（持有本地可运行 G 队列，数量默认 = GOMAXPROCS）。调度核心是 M 必须绑定 P 才能执行 G；当 G 发生阻塞系统调用时，M 会与 P 解绑、P 被其他空闲 M 抢走继续跑队列，从而不让一次阻塞拖垮整个 P 上的并发；另有 work-stealing（空闲 P 偷别人队列一半）和 sysmon 抢占（解决 G 长时间不让出）的机制。

全局视野：对卫星测运控这类「测量—编排—下发—回切」长链路系统，调度模型决定了高扇出采集任务能不能稳定压住延迟，而不是堆线程。取舍：Go 用协程换来了高并发下的低内存占用，代价是没有线程级隔离——一个 panic 不 recover 会带崩整进程，所以我在 controller 里所有异步任务入口都强制 defer recover。

踩坑（backbone-controller）：topology-service 的 KafkaConsumer 把消息按 targetType 提交到 DEVICE_EXECUTOR / TOPOLOGY_EXECUTOR 线程池，早期一个下游设备查询接口偶发 hang 住没有超时，goroutine（对应 Java 这边是线程，但 Go 控制器侧同模式）只增不减。定位手段：先看 pprof 的 goroutine profile，按调用栈聚类，发现大量卡在同一个网络 read；根因是没设读超时。解法是给所有南向调用加 context 超时 + 连接池上限。

方法论：「任何跨进程调用都必须有超时、有上限、有可观测」——没有超时的阻塞调用，在协程模型里就是慢性资源泄漏。

Q2｜controller-runtime 的 Reconcile 是怎么被触发的？Informer + Workqueue 这套机制讲透。

考察：K8s Operator 底层（简历「落地 3 个生产级控制器」的支撑）

控制器本质是「声明式 + 最终一致」的调谐循环。controller-runtime 底层：Informer 通过 list-watch 监听 APIServer，把对象事件写入本地 DeltaFIFO 并维护一份 Indexer 缓存（读走缓存、不打 APIServer）；事件经过 ResourceEventHandler 转成对象的 namespace/name key，去重后入 Workqueue；Worker 池取 key 调用 Reconcile，Reconcile 只拿 key 再从缓存读最新对象，做「实际状态 vs 期望状态」的差异收敛，返回 error 或 RequeueAfter 决定是否重试 / 限速退避。

关键点：Reconcile 必须幂等，因为同一对象可能被多次调谐；它面向「对象当前全貌」而不是「这次发生了什么事件」——这是和消息驱动最大的区别。取舍：list-watch + 本地缓存把读压力从 APIServer 卸到内存，代价是缓存有滞后窗口，所以写操作要用 resourceVersion 乐观锁防覆盖。

踩坑（backbone-controller，CRD 控制器）：早期把业务状态直接写在 spec 里，导致用户改 spec 和控制器写状态互相覆盖。改造为简历里写的 「spec/status 严格分离、Finalizer 保级联清理、状态条件多维度透出」：spec 只由用户写、status 只由控制器写，删除走 Finalizer 兜住级联资源回收。

方法论：「事件是触发器，不是数据源」——调谐永远基于对象当前期望态重算，控制器才能在漏事件、重放事件下都收敛到正确结果。

Q3｜CRD 的 spec/status 分离、Finalizer、乐观锁（resourceVersion）各解决什么问题？

考察：声明式 API 设计（直接呼应简历表述）

三者解决控制器三类典型竞态。spec/status 分离解决写冲突：spec 是用户的期望、status 是控制器观测到的事实，两者由不同主体写、用 subresource 隔离更新，避免「用户改配置」和「控制器刷状态」互相踩。Finalizer 解决「删除即丢失」：对象被删时 K8s 先打 deletionTimestamp 而非立即移除，控制器据此做级联清理（释放下游设备配置、回收资源池 ID）后再摘掉 Finalizer，对象才真正消失——否则删 CR 时下游网络设备上的残留配置就成了孤儿。resourceVersion 乐观锁解决并发更新：每次 update 带版本号，冲突即 409、重新读再试，避免基于过期缓存的覆盖写。

取舍：Finalizer 带来的代价是「删不掉」的运维风险——如果清理逻辑有 bug 或下游不可达，对象会卡在 Terminating。所以我在 backbone-controller 里给 Finalizer 清理逻辑加了超时 + 兜底强制摘除开关，并把卡住的对象透出告警。

踩坑：曾因下游设备宕机导致一批 CR 卡 Terminating，连带 namespace 删不掉。复盘后定的规矩：清理动作必须可重入、可超时、可人工干预。

方法论：「期望与事实分账、删除走两段式、写带版本号」——这是写任何声明式控制器都该先立的三条地基。

Q4｜K8s 为什么选 Etcd？Raft、Watch、Lease、MVCC 你怎么理解？

考察：Etcd 底层（JD 明确列 Etcd）

Etcd 是强一致（CP）的分布式 KV，恰好匹配 K8s「集群唯一事实源」的诉求。Raft 提供线性一致：写必须过 Leader 并复制到多数派（quorum）才提交，保证任意时刻读到的是已确认的最新值，这对「调度决策不能基于脑裂数据」是硬要求。MVCC：每次写产生新 revision，历史版本保留到 compaction，这让 Watch 能从某个 revision 起精确续传事件流——K8s Informer 的 list-watch 断线重连就是靠它做到不漏不重。Lease：给 key 绑租约 + 心跳续租，租约过期 key 自动删——服务注册存活、Leader 选举、分布式锁都用它。

全局视野：在卫星地面系统里，「配置 / 状态的唯一事实源」同样是命门，选型逻辑可直接迁移——元数据规模小但一致性要求极高的场景用 Etcd，海量但弱一致的遥测数据反而不该塞进去。取舍：Etcd 强一致的代价是写吞吐和容量都有限（官方建议库别超 8GB、写 QPS 千级），所以绝不能把高频时序数据写 Etcd。

踩坑（简历提到的存储卷漂移 P0）：Etcd 这类有状态组件在 K8s 上最怕 PV 漂移导致数据节点错乱。沉淀的 Runbook 是：有状态集群固定拓扑 + 反亲和 + 独立存储类，并定期做 snapshot 备份演练。

方法论：「按一致性等级分流数据」——元数据进强一致存储、海量观测数据进时序 / 列存，别让一种存储扛所有负载。

Q5｜Consul / Etcd / Nacos 做服务发现，一致性模型和健康检查有什么不同？怎么选？

考察：服务注册发现选型（简历写了三者全链路）

三者差异主要在 CAP 取向和健康检查模型。Etcd 是纯 CP，靠 Lease 续租表达存活，自身不主动探活，适合「K8s 内、组件少、要强一致」。Consul 默认 CP（Raft），但提供丰富的主动健康检查（HTTP/TCP/TTL/脚本）和多数据中心，适合「跨机房、要细粒度探活」。Nacos 支持 AP/CP 双模式切换（临时实例走 AP+Distro 协议保可用、持久实例走 CP+Raft），健康检查临时实例靠心跳、持久实例靠探测，适合「服务数量大、可用性优先」的微服务注册。

取舍：服务发现这件事我倾向 AP 优先——注册中心短暂不一致顶多多调一次失败重试，但注册中心不可用会让整个微服务网瘫痪，可用性比一致性更值钱。所以纯业务服务发现我更接受 Nacos/Consul 的 AP 侧；而 Leader 选举、分布式锁这种必须强一致的，才用 Etcd。

踩坑（backbone-controller，40+ 微服务）：早期注册中心和配置中心耦合在一起，一次注册中心抖动放大成全平台不可用。整改方向是发现与配置解耦、客户端带本地缓存与兜底实例列表，注册中心挂了也能用上一份快照续命。

方法论：「服务发现选 AP、协调选 CP」——按『挂了会怎样』而不是『理论是否优雅』来选一致性级别。

Q6｜分布式锁你们用 Redisson 实现，讲讲看门狗续期、误删防护、可重入，以及你们源码里的兜底逻辑。

考察：Redis 分布式锁底层（直接对应 backbone-controller RedissonLockService 源码）

我们 bbc-common 里的 RedissonLockService 封装了四类语义：阻塞 lock()、带超时 tryLock(time,unit)、读写锁、以及 Runnable/Callable 两种执行体。底层关键机制：看门狗（watchdog）——lock() 不显式设租约时，Redisson 默认 30s 租约并每 10s 自动续期，避免业务没跑完锁先过期；可重入靠 RLock 的 hash 结构记录 threadId + 重入计数，同线程重入只加计数、释放时递减到 0 才真删；误删防护靠释放前判 isHeldByCurrentThread()，不是自己持有的锁绝不删。

源码里的兜底（我特意保留的防御性逻辑）：unlock 后再查一次 isLocked()，若仍锁住且确属当前线程，则 forceUnlock() 强制释放并打 warn 日志；若已不属当前线程则记录告警但不强删——宁可漏放也不能错放别人的锁。锁 key 用 prefix_serviceId_lock_类名_方法名_行号 自动生成，保证不同业务点天然不撞 key。

取舍：Redis 锁是 AP 的，主从切换 + 主节点未同步会有极小概率双持（这就是 RedLock 争议）。我们的判断是：对「资源 ID 分配」这类场景，宁可用锁 + DB 唯一约束 / 乐观锁做二道防线，也不盲目上 RedLock 的复杂度——锁只用来降冲突概率，最终正确性交给 DB。

踩坑：tryLock 拿不到锁时我们直接抛 GRAB_LOCK_FAILED 业务异常而不是默默等待，避免请求堆积；这是被一次锁等待雪崩教育出来的。

方法论：「锁是降概率，不是保正确」——分布式锁负责减少冲突，最终一致必须由幂等 + 唯一约束兜底。

Q7｜Kafka 的消费者组、重平衡、幂等你怎么理解？你们 KafkaConsumer 的消息可靠性有什么风险？

考察：Kafka 底层 + 对自家实现的诚实剖析（backbone-controller KafkaConsumer）

基本盘：消费者组让同一 topic 的分区在组内成员间独占分配（一个分区同时只被组内一个消费者消费），扩容即加消费者；重平衡（rebalance）在成员增减 / 分区变化 / 心跳超时时触发，期间消费暂停（stop-the-world），所以要尽量避免频繁重平衡（调大 session.timeout、用 cooperative-sticky 分配器减少分区搬迁）。幂等分两层：生产端 enable.idempotence 靠 PID+seq 去重防重发；消费端要靠业务自己做（去重表 / 唯一键 / 状态机）。

自家实现的诚实风险点：我们 topology-service 的 KafkaConsumer 用 @KafkaListener 收到消息后，按 targetType 把任务 submit 到独立线程池（DEVICE_EXECUTOR / TOPOLOGY_EXECUTOR）异步处理，监听方法很快返回。这意味着 offset 会在业务真正处理完之前就被提交——如果线程池任务执行中进程崩了，这条消息就丢了（at-most-once 偏弱语义）。这是为了吞吐做的取舍，但要 defend 的话我必须说清它的代价。

取舍与补救：拓扑 / 设备变更这类消息本身是幂等且可重建的（下一轮全量同步会纠偏），所以容忍偶发丢失换吞吐是划算的；但若换成「计费 / 配置下发」这类不可丢的消息，就必须改成手动提交 offset（处理完再 commit）+ 消费端去重表。

方法论：「按消息可重建性选投递语义」——可重建的消息优先吞吐（异步 + 自动提交），不可重建的消息优先不丢（手动提交 + 幂等表）。

Q8｜Go 微服务之间用 gRPC 还是 REST？Protobuf 和 HTTP/2 多路复用的价值在哪？

考察：微服务通信选型

gRPC = Protobuf（IDL + 二进制编码）+ HTTP/2（多路复用 + 头压缩 + 双向流）。价值：Protobuf 比 JSON 体积小、解析快、有强 schema 和版本兼容规则（字段编号只增不改）；HTTP/2 单连接多路复用消除了 HTTP/1.1 的队头阻塞和连接爆炸，还原生支持 streaming，适合遥测这类长流。REST+JSON 的价值是人可读、调试友好、生态通吃、浏览器直连。

取舍（我的实际做法）：南北向（前端 / 第三方）用 REST，东西向（内部服务间高频调用、流式）才上 gRPC。理由是 gRPC 的代价不小——调试要专门工具、浏览器要 gRPC-Web 网关、出问题抓包不直观，对一个 40+ 微服务、还要对接多厂商设备的团队，全 gRPC 会显著抬高协作成本。

踩坑：sword 里服务间调用我们走的是 HTTP（SouthAdapter 直接 http://{podIp}:9209/sword-south/...），简单直接但缺了强 schema 约束，曾因上下游 DTO 字段对不齐出过线上问题。教训是：用 REST 也要把契约固化（共享 api 模块 + 契约测试），别靠口头约定。

方法论：「协议按调用面分层」——对外可读性优先、对内性能优先，但无论哪种，契约都必须是代码而非约定。

Q9｜海量路由 / 遥测数据分库分表，你们 ShardingSphere 的分片键怎么选的？跨片查询怎么办？

考察：分库分表底层（对应 sword RouteTableShardingAlgorithm）

sword 的路由表用 ShardingSphere 做分片，分片算法是 ComplexKeysShardingAlgorithm（复合分片键），实际取 domain_id（隔离域）+ device_id（设备） 两列，路由公式是 suffix = (domain_id % 2) * 2 + (device_id % 2)，落到 _0/_1/_2/_3 四张表。选这两列的逻辑是：绝大多数查询都带「域 + 设备」维度，把它们作为分片键能让点查命中单片、避免全片扫描。

取舍：复合键 + 取模的代价是扩容不友好（从 4 片扩到 8 片要重算路由、迁数据），也做不到一致性哈希那种平滑扩容。我们当时的判断是：园区网设备规模可预估、四片足够撑住目标量级，用简单可预测的取模换掉一致性哈希的复杂度是合理的；真要扩容就走停机迁移窗口。踩坑：早期分片键只用了 device_id，结果按域聚合的报表查询变成全片扫描 + 内存归并，慢得离谱；补上 domain_id 后才把高频查询压回单片。

全局视野：迁到卫星 / 遥感场景，海量遥测时序数据更适合「时序库（InfluxDB）按时间分片 + 关系库只存元数据」，而不是硬用关系库分库分表——选错存储模型，分片做得再精也是错的方向。

方法论：「分片键跟着高频查询的过滤维度走」，且先确认存储模型选对，再谈分片策略。

Q10｜设备南向对接，NETCONF/YANG、SNMP、CLI 三种你怎么权衡？这跟卫星测控有什么相通？

考察：网络 / 测控南向协议（对应 south-driver-common，搭桥卫星方向）

三种是不同年代、不同抽象层级的设备交互方式。SNMP 擅长读监控指标和收 trap 告警，模型是 MIB/OID，写配置能力弱；CLI 是「人怎么敲、程序就怎么模拟」，覆盖最全但最脆——厂商一改回显格式解析就崩；NETCONF/YANG 是结构化配置协议，YANG 提供强类型数据模型、支持事务（candidate→commit→rollback）和能力协商，是做「确定性下发 + 回滚」的正解。backbone-controller 的 south-driver-common 就以 NETCONF 为主（NetconfClient/Session/SessionPoolFactory + SSH），告警侧用 SNMP trap（HwNotificationParser），CLI 作兜底。

取舍：理想全用 NETCONF/YANG，但现实是老设备 / 白盒 YANG 模型不全，所以我们做了分层兜底：NETCONF 优先、SNMP 收监控、CLI 兜底，并把差异封进南向适配层。

搭桥卫星测控：卫星测运控的「测量—编排—下发—回切」链路，和我们做的「telemetry 采集 → DetNet 编排 → NETCONF 下发 → 失败回切」是同构的——都是「带约束的指令编排 + 可回滚下发 + 闭环遥测校验」。这正是我把网络测控经验迁到航天方向的技术依据，而不是硬凑。

方法论：「下发要事务化、采集要结构化、解析要容差」——面向异构设备，协议能力分层兜底比押注单一协议更稳。

Q11｜前端要渲染上千节点的网络拓扑 + GIS 地图，Vue 响应式会不会成为瓶颈？怎么优化？

考察：全栈 / 前端深度 + GIS（JD 要求，备注里点名会被追问）

会。Vue 的响应式（Vue3 用 Proxy 做依赖收集 + 异步批量更新）在「几百个绑定」时无感，但上千网元 + 链路 + 实时告警全用 DOM/SVG 双向绑定时，diff 和重排会卡。我的处理分三层：渲染层——拓扑和 GIS 这种海量图元不要用 DOM，改 Canvas / WebGL（拓扑用力导向 + 分层 LOD，地图用瓦片 + 视口裁剪只渲染可见区域）；数据层——大列表 / 设备表用虚拟滚动只渲染可视行，实时指标走 WebSocket 增量推送 + 前端节流合并而不是全量重拉；响应式层——把不需要响应式的大数组用 shallowRef / markRaw 摘出依赖追踪，避免 Proxy 深度劫持的开销。

取舍：Canvas 渲染的代价是丢了 DOM 的可访问性和事件便利（要自己做命中检测、自己画交互态），但面对千级图元这是必要交换。踩坑（sword 园区网平台）：拓扑 + GIS（cityPosition）页面早期卡顿明显，配合后端 WebSocket 做 PING / 链路诊断实时回显时，全量刷新直接卡死浏览器；改成增量帧 + Canvas 重绘 + 节流后才顺。

诚实预期管理：我前端能独立完成网络运维类前后端联调和这类性能改造，但深度交互组件库 / 复杂动效不是我的主场——我的定位是「后端 / 云原生为主、全栈可补位」，复杂前端我能把架构和性能兜住、细节会和专职前端协作。

方法论：「量级决定渲染技术选型」——百级用框架默认、千级上 Canvas+虚拟化、万级要考虑后端聚合下采样。

Q12｜遥测 / 遥感这类海量指标，InfluxDB 和 Prometheus 存储模型差在哪？怎么扛住高频写入？

考察：时序存储底层（对应简历 InfluxDB + 遥测方向）

两者都是时序库但定位不同。Prometheus 是 pull 模型 + 多维 label，自带 TSDB（按 2h block + WAL），强在「监控告警 + 服务自身指标」，但单机为主、不擅长长期海量存储和高基数 label。InfluxDB 是 push 模型，数据模型是 measurement + tag（索引）+ field（不索引）+ timestamp，TSM 引擎做列式压缩 + 时间分片，更适合「设备遥测 / 遥感这类持续高频写入 + 长期留存」。关键坑都在 tag 基数（cardinality）——把高基数维度（如每条流的唯一 ID）放进 tag 会让索引爆炸、内存打满。

扛高频写入的手段：写入端批量 + 异步 + 背压（sword 里就有 DBBatchService 做批量落库）；模型上严格区分 tag/field，唯一 ID 放 field 不放 tag；留存上按精度分层——原始高精度短期留存、降采样后长期留存（continuous query / downsampling）；超大规模再上集群版或 VictoriaMetrics 这类。

取舍：监控自身用 Prometheus + Grafana（简历里我做大盘就是这套，把某类告警 MTTD 从约 30 分钟降到 1–3 分钟级别），业务遥测 / 遥感数据用 InfluxDB 这类专用时序库，不混用。踩坑：早期把高基数标签塞进时序库导致写入抖动、内存飙升，复盘后立的规矩——「时序库里 tag 必须是有限枚举集」。

方法论：「按读写模式选时序库、按基数设计 schema、按精度做留存分层」。

二、架构设计题（10 题）——系统设计 / 高并发 / 高可用 / 分布式（结合 4A 方法论）

4A 答题骨架：每道系统设计题都按 BA 业务架构（业务能力 / 流程 / 干系人）→ AA 应用架构（服务拆分 / 交互 / 编排）→ DA 数据架构（数据分类 / 存储选型 / 流转）→ TA 技术架构（部署 / 高可用 / 安全 / 信创）四个视角展开，最后落到取舍与度量。

Q13｜设计一套卫星测运控系统（测量—编排—下发—回切），用 4A 把它讲清楚。

考察：领域系统设计 + 4A 全维度（核心岗位题）

BA 业务架构：核心业务能力是「测控计划编排 → 测站资源调度 → 指令上注 → 遥测下行回收 → 异常回切」，干系人含测控调度、卫星工程、地面站、安全保密。业务流程是带时间窗约束的闭环（卫星过境窗口有限，必须在窗口内完成上注与回收）。

AA 应用架构：拆成「计划编排服务 / 资源调度服务 / 指令下发服务 / 遥测采集服务 / 回切（rollback）服务 / 监控告警服务」，用工作流引擎串联（我在 backbone-controller 的 DynamicWorkChain 就是干这个——可动态插入步骤、失败逆序补偿）。下发走事务化协议（NETCONF candidate/commit/rollback 思路），保证「要么全成、要么回到上一致状态」。

DA 数据架构：三类数据分流——计划 / 配置类（强一致，关系库 + Etcd 选型逻辑）、遥测时序类（海量高频，InfluxDB 时序库 + 降采样分层）、轨道 / 地理类（GIS，瓦片 + 空间索引）。绝不混存。

TA 技术架构：K8s 部署 + 多地面站异地多活（控制面 quorum 防脑裂）；信创栈适配（麒麟 OS / 鲲鹏 / 达梦，需预留适配层）；全链路可观测（指标 + 日志 + 链路三件套）。

取舍：编排引擎自研 vs 开源——见 Q18/Q28，结论是核心闭环编排我倾向可控的自研轻量引擎，外围审批流才用开源 BPM。搭桥诚实：我没做过真实卫星测运控，上面是用「网络测控同构链路 + 自动化本科 / 中科航宇控制系统背景」推演的架构，行业细节（轨道力学、频管、保密分级）需要入职后补。

方法论：「闭环系统先定回切边界」——任何下发动作设计时先想清楚「失败怎么回到安全态」，再想正向流程。

Q14｜百万级遥测 / 遥感指标采集与处理管道怎么设计？（DA 为主）

考察：高并发数据管道

BA：业务要的是「采得全、算得快、存得起、查得到」，且要容忍设备 / 链路抖动。AA：经典三段——采集层（多协议 agent：telemetry / SNMP / netstream，对应 backbone 的 netstream-agent）→ 缓冲层（Kafka 做削峰解耦 + 分区并行）→ 处理层（流式计算做清洗 / 聚合 / 异常检测，sword 的 sword-stream 就是这层）→ 存储层（时序库 + 分片）。

DA：数据分级——热数据（近实时，秒级查询，时序库高精度）、温数据（降采样，分钟级）、冷数据（对象存储归档）。TA：Kafka 多分区 + 消费者组水平扩展，处理层无状态可弹（HPA/KEDA 按 lag 伸缩），存储分片。

取舍与踩坑：是否「精确一次」——见 Q7，结论是遥测可重建数据选高吞吐弱语义（异步 + 自动提交），不可丢数据才上手动提交 + 幂等。背压是命门：sword 早期没做背压，上游突发导致下游 DB 写爆，后来用 DBBatchService 批量 + 线程池有界队列 + 拒绝策略兜住。

数据支撑：园区网平台做到单实例维护千级设备长连接（压测约 1.5K，生产形态略小），靠的就是这套采集—缓冲—批量落库链路。

方法论：「采集管道用 Kafka 解耦上下游速率，存储按冷热分层」——别让最快的生产者直接压最慢的存储。

Q15｜地面控制面要高可用，怎么防脑裂、做故障切换、异地多活？（TA 为主）

考察：高可用 / 分布式一致性

BA：测控控制面是单点即灾难的系统，可用性目标要按「过境窗口不可错过」倒推。AA：控制面组件分两类——有状态协调组件（配置 / 选主，基于 Etcd/Raft，多数派存活才可写，天然防脑裂）和无状态业务服务（多副本 + 负载均衡 + 健康检查，挂了直接摘除重调度）。

TA 防脑裂：核心是 quorum + fencing——少数派分区必须停止写（拿不到多数派就降级只读 / 拒绝），并用 lease/term 做 fencing 防「旧主复活后乱写」。异地多活：地面站间用「同城强一致 + 异地最终一致」分层——同城双活共享强一致存储、异地用异步复制 + 冲突解决，避免跨地域强一致的高延迟。

取舍：异地强一致（如跨地域 Raft）延迟不可接受，所以异地只做最终一致 + 单写多读，牺牲了「任意站点都能写」换来可用延迟。踩坑（简历 P0：存储卷漂移）：有状态组件在 K8s 上最怕调度漂移导致数据错乱，Runbook 沉淀为「有状态固定拓扑 + 反亲和 + 独立存储 + snapshot 演练」。

方法论：「少数派必须主动闭嘴」——脑裂防护的本质不是『让两边都活』，而是『让拿不到多数派的一边果断降级』。

Q16｜多租户云原生 PaaS 的隔离怎么做？（AA + TA）

考察：多租户隔离（对应简历 Cozystack / 企业级 PaaS）

BA：多租户要同时满足「资源隔离、数据隔离、故障隔离、计费可分摊」，租户互不可见、互不影响。AA：我在 Cozystack 二开里的做法是扩展租户 CRD，承接「命名空间隔离、配额、网络策略、应用部署的级联编排」——一个租户 = 一组带 RBAC/NetworkPolicy/ResourceQuota 的命名空间 + 声明式应用模板。

DA：数据隔离按敏感度分级——强隔离租户独立库 / 独立实例，普通租户共享实例 + schema/行级隔离 + 租户 ID 强制下推。TA 隔离强度阶梯：namespace（软隔离，省资源）→ 节点池 / 污点亲和（中）→ 独立集群 / 安全容器 Kata（硬隔离，贵）。

取舍：隔离越强成本越高，所以按租户等级给不同隔离档，而不是一刀切上最强隔离。踩坑（简历提到的 Sidecar 资源估算偏差 P0）：多租户下 Sidecar / 边车资源没估准导致节点超卖、OOM，复盘后把「Sidecar 资源画像 + 节点超卖比」纳入容量模型。

数据支撑：Cozystack 二开落地 3 类资源任务模板，多租户隔离能力通过混合负载验证；新租户开通从手工脚本缩短至单条声明式提交。

方法论：「隔离分档、配额前置、故障收敛在租户内」——多租户的核心是让一个租户的坏行为爆炸半径不出自己的边界。

Q17｜海量 GIS / 遥感数据的存储与可视化架构怎么设计？（DA 为主）

考察：空间数据 + 可视化（JD 的 GIS + 遥感诉求）

BA：用户要「在地图上又快又顺地看遥感影像 / 设备地理分布 / 链路态势」，数据量级是 TB~PB 级栅格 + 海量矢量点。AA：分「影像服务（栅格瓦片）+ 矢量服务（要素）+ 态势叠加服务（实时图层）」，前端按需拉取。DA：栅格走金字塔瓦片 + 对象存储（预切片，按 zoom 层级分级），矢量走空间数据库（PostGIS）+ 空间索引（R-tree / GeoHash），实时态势走时序 + WebSocket 推送。

TA：瓦片走 CDN / 边缘缓存，前端用 Canvas/WebGL（见 Q11）+ 视口裁剪 + LOD 只渲染可见层级。取舍：预切片瓦片的代价是存储膨胀和切片耗时，但换来查询期零计算、秒开地图——对「看图为主、写少读多」的场景值得；动态生成瓦片省存储但抗不住高并发。

踩坑（sword cityPosition / 拓扑）：早期前端全量加载地理 + 拓扑数据卡死，改成「后端按视口聚合下采样 + 前端虚拟化 + Canvas 重绘」才顺。搭桥：园区网的 GIS 拓扑可视化与遥感地图同构（都是空间索引 + 瓦片 + 视口渲染），是我贴近这个岗位的直接经验。

方法论：「空间数据按读写比决定『预算 vs 现算』」——读多写少预切片、写多读少现算，可视化永远只渲染视口内的东西。

Q18｜确定性低时延调度系统（资源池 + 多约束）怎么设计？（TA）

考察：调度 / 约束求解（对应 backbone DetNet / DetnetResourcePool）

BA：业务要「在带宽 / 时延 / 抖动多约束下，为每条流分配确定性资源并保证 SLA」。AA：分「资源池管理（ID / 带宽分配）+ 路径计算（多约束最短路）+ 编排下发 + 闭环校验」。我在 backbone 的 DetnetResourcePool 就是资源池层：管 STREAM_ID（1–16000）、PATH_ID（1–4000）、OAM_NAME（1–4294967295）三类 ID 池，按 PE 设备（peId）维度分配做隔离，分配用分布式锁串行化、耗尽抛 RESOURCE_POOL_USED_OUT。

DA：资源占用状态既在 DB 也在缓存（StreamIdCache 等），关键设计是重启恢复——recoverResources() 启动时扫 DB 把已占用 ID 重新标记，保证进程重启后分配状态不丢、不重分。TA：路径计算（path-compute-service）做多约束求解，下发走事务化协议、失败回切。

取舍：资源 ID 分配「锁 + 缓存」还是「纯 DB 唯一约束」——我们用锁降冲突 + DB/唯一性兜底正确性（呼应 Q6），因为纯锁有 AP 风险、纯 DB 抢号高并发下热点严重。踩坑：早期没做重启恢复，进程重启后资源池「忘了」已分配 ID，导致重复分配冲突；recoverResources 就是这次故障的产物。

数据支撑：确定性网络方向沉淀核心发明专利 2 项，核心接口 P99 控制在 50ms 量级（压测口径）。

方法论：「有状态分配器必须能从持久态重建内存态」——重启恢复不是可选项，是正确性的一部分。

Q19｜多厂商 / 异构设备（或卫星载荷）统一接入，架构怎么抽象？（AA）

考察：异构接入抽象（对应 south-driver / sword PluginLocator）

BA：业务要「上层不感知厂商差异，新增厂商 / 型号不改核心代码」。AA 核心是『统一模型 + 插件化驱动 + 适配层』三件套：定义统一南向模型（backbone 的 SouthServiceUnifyVo、sword 的泛型模型 T），核心逻辑只面向统一模型；每个厂商一个驱动插件（backbone 用 Java SPI + @PluginIndicator(vender)，sword 用 Spring bean + PluginLocator 按 vendor+model+impl 路由）；差异（协议、字段顺序、回显格式）全封进适配层（SbAbstractAdapter 模板方法 / 各厂商 ssh exec util）。

取舍（两种 SPI 我都用过，可对比）：Java SPI（META-INF/services）解耦彻底、可独立打包部署，但拿不到 Spring 容器能力、要自己管生命周期；Spring bean SPI（@Autowired List<> + Map 路由）能用 DI / AOP / 配置，但插件和主程序强耦合在同一容器、做不到热插拔。判断：要独立交付 / 第三方扩展用 Java SPI，团队内强迭代用 Spring SPI。

踩坑（简历明写）：对接某 OEM 设备时因字段顺序差异导致下发故障，复盘后沉淀「协议适配层 + 多厂商契约测试」——每加一个厂商，先补契约测试再接生产。搭桥：卫星载荷 / 地面设备同样是多厂商异构，这套「统一模型 + 插件驱动 + 契约测试」可直接迁移。

方法论：「把易变性关进插件，把稳定性留给内核」——核心只认统一模型，厂商差异永远在适配层，且必须有契约测试守门。

Q20｜星地一体网络的服务编排 / 工作流引擎怎么设计？要不要自研？（AA）

考察：编排引擎（对应 backbone DynamicWorkChain）

BA：编排要支持「步骤可动态增减、失败可补偿回滚、执行可观测」。AA：我在 backbone 自研的 DynamicWorkChain（基于 Apache Commons Chain 扩展）核心特性：filter 用双向链表按 stepCount 有序组织、支持运行期 insertChain 动态插入步骤；执行是正向 execute + 逆向 postprocess——正向逐步执行，出错时逆序回放 postprocess 做补偿（类似 Saga），并用 handled 标志决定异常是否吞掉。

取舍（要不要自研）：当时没用重型 BPM（如 Activiti/Flowable）的理由——核心网络指令编排要的是轻量、可控、嵌入式、强补偿，而重型 BPM 引入了流程持久化、引擎运维、DSL 学习成本，对「代码内编排」是过度设计。代价：自研引擎可视化 / 审计弱，所以外围审批流我们仍用成熟 BPM，核心闭环才自研。

踩坑：早期补偿逻辑不是逆序 / 不幂等，回滚回放出过「补偿不彻底」的脏状态；改成严格逆序 + 每步补偿幂等后才稳。全局视野：星地编排比网络编排多了「过境时间窗」约束，引擎要支持「窗口内未完成即触发回切」——这是我要在自研引擎上补的能力。

方法论：「编排引擎的难点不在正向，在补偿」——设计时先把每一步的逆操作和幂等定义清楚，正向反而是简单的。

Q21｜如果要求信创 / 国产化（麒麟 OS / 鲲鹏 / 达梦），你的架构怎么适配？（TA）

考察：信创适配（投递备注点名的风险点，主动准备）

诚实开场：我没有大规模信创栈落地的实操经验，但有「跨厂商异构适配」的方法论可迁移，下面讲思路而不假装有战绩。TA 适配分层：OS/芯片层（麒麟 + 鲲鹏 ARM）——关键是架构无关编译，Go 天然交叉编译友好（GOARCH=arm64），容器镜像走多架构（buildx / manifest list），CI 里加 ARM 流水线；数据库层（达梦 / 人大金仓替换 MySQL/PG）——用 ORM + 方言隔离（MyBatis 我们已在用，方言 / 分页 / 函数差异封进 dialect 适配层），避免业务直接写厂商方言 SQL；中间件层——优先选有信创版本的（如东方通替 Tomcat）。

取舍：信创替换的代价是生态成熟度和性能折损（国产库部分函数 / 优化器行为不同），所以策略是「抽象 + 契约测试 + 双栈并行验证」——先用适配层抹平，再用契约测试保证两套栈行为一致，灰度切换。搭桥经验：这套「方言隔离 + 契约测试」我在多厂商设备南向对接里验证过（见 Q19），换成数据库 / OS 是同一套方法。

全局视野：信创不只是技术替换，更是合规 / 政审 / 供应链安全的组织要求，架构要预留「全栈可审计、依赖可溯源」的能力——这点我会如实表达适配意愿，也需要入职后了解公司既有信创基线。

方法论：「把厂商绑定关进适配层，用契约测试保证可替换」——信创适配的本质是『一次抽象、多处替换、行为对齐』。

Q22｜全栈实时通信（WebSocket 链路诊断 / 遥测回显）的可扩展架构怎么设计？

考察：实时通信架构（对应 sword WebSocket）

BA：用户要「PING / Tracert / 设备运行配置 / 远程登录」的实时回显，体验上要『敲一下、即时出』。AA：sword 用 WebSocket（/pc-websocket/event、/pc-websocket/ssh）做实时通道，后端按会话维持长连接、把南向设备的流式输出推给前端。扩展性难点是 WebSocket 有状态（连接绑在某个实例上），多实例下要解决「消息路由到正确实例」。

TA 扩展方案：连接层用网关做会话粘性（sticky）或引入消息总线（Redis pub/sub / Kafka）做实例间转发——某实例收到的设备回显，通过总线广播 / 定向投递到持有该用户连接的实例。横向扩展时，连接数用连接网关层扛、业务无状态化。

取舍：粘性会话简单但伸缩 / 故障转移不友好（实例挂了连接全断），消息总线转发复杂但解耦了连接与处理。中小规模我接受粘性 + 断线重连，大规模才上总线。踩坑（sword）：实时回显早期全量刷新 + 无节流，前端卡死、后端连接打满；改成增量帧 + 服务端节流合并 + 连接数上限 + 心跳保活后才稳（呼应 Q11 千级长连接的压测口径）。

方法论：「有状态长连接要么粘住、要么靠总线解耦」——实时系统的扩展性瓶颈通常不在算力，在『连接状态放哪』。

三、TOGAF 架构方法论题（5 题）——ADM 各阶段实践 / 架构治理 / 架构原则

诚实定位：我熟练运用 4A 视角组织架构，TOGAF ADM 我把它当『架构推进的过程框架』来用——不照本宣科背阶段，而是讲『每个阶段在真实项目里我实际做了什么、产出什么、卡在哪』。

Q23｜用 TOGAF ADM 完整周期，讲讲你会怎么推进一个卫星地面系统的架构落地。

考察：ADM 全周期实践

ADM 是一个闭环迭代：Preliminary（预备）→ A 架构愿景 → B 业务架构 → C 信息系统架构（数据 + 应用）→ D 技术架构 → E 机会与方案 → F 迁移规划 → G 实施治理 → H 变更管理，中间 Requirements Management 贯穿始终。

我会这样落地：Preliminary 先定架构能力和原则（信创优先、安全分级、确定性 SLA，见 Q25）；A 和测控 / 卫星工程 / 保密干系人对齐愿景与边界，产出架构愿景和干系人图；B/C/D 正好对应我熟的 4A——业务能力建模、数据分类与存储选型、应用服务拆分、技术部署与高可用（见 Q13）；E/F 做 gap 分析和迁移路线（见 Q27）；G 建 ARB 和合规评审守住落地不走样（见 Q26）；H 管架构演进的变更请求。

取舍：ADM 最大的价值不是『阶段齐全』而是『强迫你在动手前把愿景、原则、干系人、边界讲清楚』；但对快速迭代的团队，全套重型 ADM 会拖慢节奏——我的做法是裁剪 ADM（轻量版：愿景 + 原则 + gap + 治理四件事必做，中间产出物按需），而不是教条地凑齐所有交付物。

踩坑：早期项目跳过『愿景 / 原则』直接干，结果 40+ 微服务越长越乱、技术选型各自为政；补做架构原则和 ARB 后才收敛。

方法论：「ADM 要裁剪不要照搬」——保留『愿景—原则—gap—治理』主干，产出物服务于决策而非服务于流程。

Q24｜架构愿景阶段（Phase A），航天 / 军工这种多干系人场景，你怎么管理干系人和边界？

考察：Phase A + 干系人管理

Phase A 的核心产出是架构愿景 + 干系人图 + 范围边界 + 关键需求。航天 / 军工场景干系人特别复杂：测控调度、卫星工程、地面站运维、保密 / 政审 / 安全、采购 / 供应链（信创）、上级主管单位——他们的关注点（concern）经常冲突（如『迭代速度』vs『安全合规』）。

我的做法：先做干系人—关注点矩阵，识别每个干系人最在意什么、有什么决策权；为不同干系人准备不同架构视图（TOGAF 的 viewpoint 思想——给测控看业务流视图、给安全看数据流 / 权限视图、给运维看部署视图），用对方语言讲架构；边界用『范围内 / 范围外 / 假设 / 约束』四象限显式写死，避免后期范围蔓延。

取舍：干系人越多越想『都满足』，但愿景阶段必须敢于把冲突显性化、上升决策而不是和稀泥——比如『安全合规』和『迭代速度』冲突时，在航天场景安全优先级更高，这要在愿景里写明并让决策层背书。

踩坑（跨厂商协作经验迁移）：我在多设备厂商对接里吃过『需求口径各方不一致』的亏，教训是关键约束必须落到书面 + 干系人签字确认，口头共识在多方场景一定会走形。

方法论：「一份愿景、多种视图、冲突上升」——干系人管理的关键是用他们的语言讲、把冲突摆上桌而不是藏起来。

Q25｜架构原则（Architecture Principles）怎么制定？给信创 / 安全 / 确定性场景各举一条。

考察：架构原则制定

TOGAF 的架构原则是『用来在两难时做裁决的预先约定』，标准格式是 名称 + 陈述 + 理由 + 衍生影响（implication） 四段式。原则的价值在于：当具体方案争执不下时，回到原则就能裁决，避免每次都重新吵。

给这个场景我会立三条：

信创优先可替换——陈述：技术选型在满足需求前提下优先国产化、且禁止硬编码厂商绑定。理由：合规与供应链安全。影响：所有外部依赖（DB / OS / 中间件）必须走适配层 + 方言隔离（见 Q21）。
安全分级、最小权限——陈述：数据按密级分类、访问按最小必要授权。影响：架构必须支持数据分级标记、全链路审计、RBAC 下推到数据行。
确定性 SLA 可度量——陈述：关键链路的时延 / 抖动 / 成功率必须可度量、可回切。影响：每个下发动作要有 SLA 指标和回切预案（呼应我做的 DetNet 多约束 + P99 50ms 压测口径）。

取舍：原则不是越多越好，十条以内、条条能裁决才有用；一堆正确的废话（如『系统要高可用』）不算原则，因为它裁决不了任何具体冲突。

方法论：「好原则的检验标准是『它能否在一次真实争论里做出裁决』」——不能裁决的就删掉。

Q26｜架构治理怎么落地？ARB、架构合规评审（Compliance Review）你怎么设计才不变成走形式？

考察：架构治理（Phase G）

治理的载体通常是 ARB（架构评审委员会）+ 架构合规评审 + 架构 Repository（资产库）。但治理最大的失败模式是『变成盖章流程』——评审会变橡皮图章、原则文档没人看。

我的设计原则是轻治理、抓杠杆点：(1) 分级评审——不是所有变更都上 ARB，只有『跨服务契约变更、引入新中间件 / 新存储、安全 / 信创相关、不可逆决策』才强制评审，其余团队内自治；(2) 评审对原则不对个人——评审清单直接挂在架构原则上（这个方案符合『信创可替换』吗？符合『安全分级』吗？），让评审有客观标尺而非靠权威拍板；(3) 治理左移——把合规检查做成 CI 里的自动化卡点（如禁止硬编码厂商 SQL、镜像必须多架构、依赖必须在白名单），能自动化的绝不靠人评审。

取舍：治理力度和迭代速度天然矛盾，治理过重扼杀效率、过轻架构腐化；我的平衡点是『对不可逆和高爆炸半径的决策重治理，对可回滚的轻治理』。

踩坑：我在 40+ 微服务项目里见过『没有治理导致选型发散』（注册中心 / 序列化 / 日志各搞各的），也见过『治理过重大家绕着走』；结论是治理要让『做对的事比做错的事更省力』（提供脚手架 / 模板而不只是设卡）。

方法论：「治理左移到 CI、评审挂在原则上、只管不可逆决策」——好治理是降低做对事的成本，不是提高做事的成本。

Q27｜Gap 分析与迁移规划（Phase E/F）：从现有 Java 栈演进到 Go + 云原生 + 信创，路线怎么排？

考察：迁移规划 + 架构演进

方法：先画 Baseline（现状）vs Target（目标）架构，做 gap 分析列出差距项，再按『价值 / 风险 / 依赖』排迁移波次（transition architecture，即一组中间稳定态而非一步到位）。

具体到这个演进：现状是 backbone-controller 的 Java + Spring Cloud + 40+ 微服务，目标是 Go + 云原生 + 信创。我不会推倒重来，而是分波次：第一波——新服务用 Go 写、控制器 / Operator 这种 Go 优势场景先切（我已落地 3 个生产级控制器，是现成切入点）；第二波——存量 Java 服务先上云原生（容器化 + K8s 部署 + GitOps，不改语言），把云原生收益拿到手；第三波——按价值 / 频率挑高收益的存量服务逐步 Go 化，低频稳定的存量服务就让它继续跑 Java（不为了统一而统一）；信创适配作为横切贯穿每一波（方言隔离 + 多架构镜像，见 Q21）。

取舍：『一次性重写』vs『绞杀者模式（Strangler）渐进替换』——我坚定选绞杀者：用新架构在边缘逐步包住老系统、流量灰度迁移、老系统自然萎缩。代价是过渡期要同时维护两套、有适配成本，但换来了『任何一波出问题都能停下、能回退』，对生产系统这是必须的。

踩坑：见过团队为『技术栈统一』强行重写稳定老系统，结果重写引入新 bug、收益还不如不动。教训：迁移要由业务价值驱动，不由『技术洁癖』驱动。

数据支撑：我的迁移判断有真实底子——近 4 年正是带着团队把网络平台往云原生 / Go 迁的过程（落地 3 个生产级控制器、40+ 微服务云原生化）。

方法论：「绞杀者优于大爆炸，价值驱动优于技术洁癖，留中间稳定态」——大型迁移的成功标准是『每一步都可停、可回退』。

四、项目追问题（10 题）——backbone-controller 与 sword 深挖

这部分都是源码级追问，答案严格基于真实代码结构，能 defend 到类 / 方法粒度。

Q28｜你自研的 DynamicWorkChain，链表插入和异常补偿是怎么实现的？为什么不用现成工作流引擎？

考察：tunnel-service DynamicWorkChain

实现：DynamicWorkChain 继承 Apache Commons Chain 的 ChainBase，内部维护 DynamicWorkChainFilter 双向链表（带 prev/next/stepCount/filter）。insertChain 按 stepCount 有序插入——从当前 index 往后找到第一个 stepCount 更大的位置插进去，支持把一整段子链接进来（处理 filterTail）。execute 是两段式：先正向遍历执行每个 filter（execute 返回 true 即终止链），出异常则记下 saveException 跳出；再逆向遍历调每个 filter 的 postprocess(context, exception) 做补偿 / 清理，用 handled 标志记录异常是否被某一步消化，最后没人处理就把异常抛出去。

为什么自研：核心网络指令编排要的是轻量、嵌入式、强补偿语义，而 Activiti/Flowable 这类引入了流程持久化、DSL、引擎运维成本，对『代码内步骤编排』是过度设计。Commons Chain 给了链式骨架，我在上面补了『动态插入 + 逆序补偿』，刚好够用。

取舍代价：自研引擎可视化 / 审计 / 流程版本管理弱，所以外围审批走成熟 BPM，只有核心闭环用它。踩坑：早期 postprocess 不保证幂等 / 不严格逆序，回滚出过脏状态；定的规矩是『每个 filter 的补偿必须幂等、必须能在 execute 失败的任意中间点安全回放』。

方法论：「自研要自研在『别人重、你只需要轻』的地方」——我没自研流程引擎的全部，只自研了『动态链 + 逆序补偿』这一薄层。

Q29｜DetnetResourcePool 的资源池，并发分配、重启恢复、耗尽你怎么处理的？

考察：detnet-service DetnetResourcePoolServiceImpl

资源池管三类 ID（STREAM_ID 上限 16000、PATH_ID 上限 4000、OAM_NAME 上限 ~42.9 亿），每个池有 prefix + suffixMin + suffixMax，按 PE 设备（peId）维度分配实现设备间隔离。

并发分配：init() 用 lockService.lock(MIDDLE_TIMEOUT, ...) 分布式锁串行化初始化，避免多实例同时建默认池；分配走缓存（StreamIdCache/PathIdCache/OamNameCache）+ DB。
重启恢复：recoverResources() 在 synInit 里启动时扫 DB（queryDetnetIpPath/Stream/OamInstance），按 peId 分组把已占用的 ID 重新 occupy 标记，保证进程重启后内存占用态和 DB 一致——不会把已分配的 ID 当空闲重发。
耗尽：allocateDetnetStreamId 等返回 null 即抛 DETNET_RESOURCE_POOL_USED_OUT 业务异常，让上层明确感知而不是静默失败。

取舍：『锁 + 缓存 + DB』三层而不是纯 DB 抢号——纯 DB 自增在高并发下是单点热点，缓存分配快但有一致性风险，所以用锁串行化关键路径 + DB 做最终事实源 + 重启恢复对齐。踩坑（真实）：早期没有 recoverResources，重启后资源池『失忆』导致 ID 重复分配、下发冲突——这个恢复逻辑就是那次故障的直接产物。

数据支撑：确定性网络方向沉淀核心发明专利 2 项。

方法论：「有状态分配器 = 内存态（快）+ 持久态（准）+ 重启重建（一致）」——三者缺一，重启就会出错。

Q30｜RedissonLockService 的锁粒度、死锁预防、可重入、误删兜底，逐一讲。

考察：bbc-common RedissonLockService（源码级）

锁粒度：key 用 prefix_serviceId_lock_类名_方法名_行号 自动生成（用 Thread.getStackTrace() 取调用点），或显式传 suffix。这样不同业务点天然不撞 key，粒度细到代码行；要粗粒度（如按资源 ID 锁）就传业务 suffix。
死锁预防：tryLock(time, unit) 带获取超时，拿不到就抛 GRAB_LOCK_FAILED 不死等；持有侧靠 Redisson 看门狗自动续期（lock() 默认 30s 租约、10s 续一次），既防『业务没跑完锁过期』又防『进程崩了锁永不释放』（租约到期自动删）。
可重入：基于 RLock 的 hash（threadId → 重入计数），同线程重入加计数、释放递减到 0 才真删。
误删兜底（我特意保留的防御逻辑）：释放前判 isHeldByCurrentThread()；unlock 后再查 isLocked()，若仍持有且属当前线程则 forceUnlock() + warn 日志，若已不属当前线程则只告警不强删（宁漏放不错放别人的锁）。

取舍：Redis 锁是 AP 的，主从切换有极小双持概率，我们不上 RedLock 加复杂度，而是『锁降冲突 + DB 唯一约束 / 乐观锁兜正确性』。踩坑：早期没判 isHeldByCurrentThread 就 unlock，出现过『删了别人锁』；现在所有释放路径都先判持有者。

方法论：「锁要可超时、可续期、释放要校验持有者」——这三条是分布式锁不出事的底线，正确性还得靠业务幂等兜底。

Q31｜你们 KafkaConsumer 异步线程池消费，offset 自动提交，这不会丢消息吗？你怎么看？

考察：topology-service KafkaConsumer（诚实剖析自家实现）

会有丢的可能，我不回避这点。@KafkaListener 收到消息后按 targetType submit 到 DEVICE_EXECUTOR / TOPOLOGY_EXECUTOR 线程池就立即返回，offset 在业务真正处理完前就被提交——线程池任务执行中崩了，这条消息就丢了。这是当初为吞吐做的取舍。

为什么能接受：拓扑 / 设备变更消息本身幂等且可重建——下一轮全量同步会纠偏，偶发丢一条不影响最终一致。所以用『可重建性』兜住了『弱投递语义』。代码里也能看到这种『容忍』取向：consumerHandle 把 Exception 和 Throwable 都 catch 住打日志，不让单条坏消息搞挂监听器。

如果换场景我会怎么改：若是『配置下发 / 计费』这类不可丢消息，必须改成手动提交 offset（处理完再 commit）+ 消费端幂等去重表，并配死信队列兜异常消息——用吞吐换可靠是错的方向。

踩坑：早期没区分『可重建 vs 不可丢』消息，一刀切异步自动提交，结果一类关键通知偶发丢失才暴露问题。现在的规矩是先给每个 topic 定『可重建性』标签，再选投递语义。

方法论：「投递语义不是技术参数，是业务决策」——先问『这条消息丢了能不能自愈』，再决定异步 / 同步、自动 / 手动提交。

Q32｜south-driver 用 Java SPI 做多厂商插件，对接某 OEM 字段顺序差异的故障复盘讲讲。

考察：south-driver-common SPI + 简历明写的故障

机制：IUnifyNorthService（handle + bypass）是统一南向契约，各厂商实现（如 H3cUnifyNorthServiceImpl）通过 Java SPI（META-INF/services/...IUnifyNorthService）注册，并用 @PluginIndicator(vender=...) 标厂商。上层只面向统一模型 SouthServiceUnifyVo，通信走 NETCONF（NetconfClient/Session/SessionPoolFactory + SSH），告警解析按厂商分（HwNotificationParser）。

故障复盘（简历里那条）：对接某 OEM 设备时下发失败，排查发现该厂商对配置字段顺序敏感——同样的 YANG/CLI 内容，字段顺序不同设备就拒绝或行为不一致，而我们统一模型转厂商指令时没保证顺序。根因是『把厂商隐性约束（字段顺序）当成了通用假设』。解法：在该厂商适配层固化字段顺序，并沉淀多厂商契约测试——每个厂商驱动都有一组『输入统一模型 → 期望厂商指令』的契约用例，每次改动先跑契约，接新厂商先补契约。

取舍：Java SPI 的好处是驱动可独立打包、和主程序彻底解耦（适合多厂商各自交付），代价是拿不到 Spring 容器能力、生命周期要自己管。这是和 sword 的 Spring SPI（见 Q33）相反的取舍。

方法论：「厂商的隐性约束必须用契约测试显性化」——异构适配出事，十有八九是把某家的特例当成了通用规则。

Q33｜sword 的 PluginLocator 用 Spring bean 做插件路由，和 backbone 的 Java SPI 比，你怎么选？

考察：sword PluginLocator vs backbone Java SPI（两种插件机制对比）

sword 的机制：PluginLocator 用 @Autowired List<IDeviceDriverService> 拿到所有驱动 bean，@PostConstruct 里 toMap(类名小写 → bean) 建索引，getDeviceDriverService(vendor, modelClass) 按 vendor + model + "impl"（如 h3csnmpsbimpl）路由，还做了紫光（UNIS）复用 H3C 驱动的兼容、以及 getDeviceDriverFromMap 的懒加载缓存。

两种 SPI 的取舍：

Java SPI（backbone）：彻底解耦、可独立打包部署、适合第三方 / 多团队各自交付驱动；缺点是脱离 Spring 容器（拿不到 DI/AOP/配置），实例生命周期自己管。
Spring bean SPI（sword）：能吃 Spring 全套（注入依赖、AOP、配置、事务），开发迭代快；缺点是插件和主程序强耦合在同一容器、做不到独立部署 / 热插拔，且靠类名约定路由（h3csnmpsbimpl）有点脆——改类名就路由不到。

判断：『对外开放扩展 / 独立交付 → Java SPI；团队内强迭代、要复用容器能力 → Spring SPI』。sword 是团队内一体迭代，选 Spring SPI 合理；backbone 的设备驱动要按厂商独立打包（10 个 south-driver-service 模块），选 Java SPI 合理。踩坑：sword 靠『类名小写拼 key』路由，曾因类命名不规范路由失败；教训是约定式路由要么强校验、要么改注解显式声明（像 backbone 的 @PluginIndicator）。

方法论：「插件机制按『谁来扩展、是否独立交付』选」——不是技术优劣，是协作边界决定的。

Q34｜IDeviceDriverService 和 SbAbstractAdapter 的设计，泛型契约 + 模板方法解决了什么？

考察：sword 设备驱动抽象

IDeviceDriverService<T> 是泛型设备驱动契约：merge / remove / read / generateCli——增 / 删 / 读 / 生成 CLI，T 是南向模型类型（接口、路由、VPN 等），一套契约适配所有模型。SbAbstractAdapter<T> 是模板方法基类：merge / remove 都委托给抽象的 config(deviceInfo, t, merge)（用 boolean 区分下发 / 删除），read 也抽象——把『增删共用的下发骨架』提到基类，把『厂商 / 模型差异』留给子类。

解决的问题：(1) 新增模型零散代码——加一种网络模型只要实现泛型接口，上层调用不变；(2) 消除 merge/remove 的重复——两者逻辑高度相似，模板方法把公共流程收口、只让子类填差异；(3) 统一异常（SwordException）。所有驱动都吃同一个 DeviceInfo（全网唯一 id/name + vendor + 连接凭证）做聚合根，身份和连接信息一处定义。

取舍：泛型 + 模板方法的代价是抽象层级变高、新人上手要先理解骨架；但对『多厂商 × 多模型』的笛卡尔积复杂度，不抽象会爆炸成大量重复类。踩坑：早期没有模板方法，merge 和 remove 各写一遍，改一处忘改另一处出过 bug；提取 config(merge) 后这类问题消失。

方法论：「用泛型收口『模型维度』、用模板方法收口『操作维度』」——多维变化的系统，要分别为每个变化维度找一个抽象收口点。

Q35｜sword 的 Target/Adapter 跨服务调用，服务发现和防腐层是怎么做的？

考察：sword-north target + target/adapter

模式：每个跨服务依赖定义一个 XxxTarget 接口（能力契约），再用 XxxAdapter implements XxxTarget 做具体适配。比如 SouthTarget 定义『采 ARP/路由/MAC、ping、刷新设备 MAC』等能力，SouthAdapter 把它实现成对南向服务的 HTTP 调用（http://{podIp}:9209/sword-south/...，用 NetClientUtils.post）。

服务发现：基于 K8s pod IP——PodInfo 带 podIp，调用时拼出目标 pod 的地址（配合 ${sword.svc.sword-south} 配置）。防腐层价值：上层 north 业务只依赖 SouthTarget 接口，不感知下游是 HTTP 还是 RPC、部署在哪；将来换通信方式 / 换服务发现，只改 Adapter 不动业务。这就是 DDD 的 ACL（防腐层）思想。

取舍：直接 pod IP 调用简单直接，但绕过了 K8s Service 的负载均衡——好处是能精确打到指定 pod（采集任务要『让持有该设备连接的 pod 去采』），代价是要自己管 pod 健康 / 故障转移。这是『任务亲和性』需求下的有意取舍，不是偷懒。踩坑：SouthAdapter 里能看到部分方法是 // todo 占位 + 异常只 log——这种『调用失败只记日志不重试 / 不告警』在生产里是隐患，我会补上重试 + 熔断 + 失败告警。

方法论：「跨服务依赖一律走『接口契约 + 适配实现』」——业务代码永远不该出现另一个服务的 URL，那是 Adapter 的事。

Q36｜sword 路由表分片用复合键 (domain_id, device_id)，为什么这么设计？扩容怎么办？

考察：sword-sharding RouteTableShardingAlgorithm

设计：ComplexKeysShardingAlgorithm，取 domain_id + device_id 两列，suffix = (domain_id % 2) * 2 + (device_id % 2)，落 4 张表（_0~_3）。选这两列是因为绝大多数查询都带『域 + 设备』维度，复合键能让点查命中单片；只用 device_id 的话，按域聚合的报表会退化成全片扫描 + 内存归并（这是早期踩过的坑，补 domain_id 才修好）。

扩容问题（诚实）：取模分片对扩容不友好——4 片扩 8 片要重算路由公式、迁移历史数据，做不到一致性哈希的平滑扩容。当时的取舍是：园区网设备规模可预估、4 片足够撑目标量级，用『简单可预测的取模』换掉『一致性哈希的实现 + 运维复杂度』是划算的；真要扩容就走停机迁移窗口（设备网管数据可接受短窗口维护）。

全局视野 + 搭桥：如果是卫星遥测这种持续增长、无法预估上限的数据，我就不会用关系库取模分片，而是时序库按时间自然分片 + 冷热分层——选错存储模型，分片策略再精也救不回来（呼应 Q9/Q12）。

踩坑：取模 % 2 的均匀性依赖 id 分布，如果 domain_id/device_id 分布倾斜会导致分片热点；上线前要验证 id 分布、必要时换哈希函数。

方法论：「分片键跟高频查询维度走，分片函数按『是否需要平滑扩容』选取模还是一致性哈希」。

Q37｜sword 的 domain 分层（DeviceDomain / IpRouteDomain / VpnDomain…）边界怎么划的？聚合根是谁？

考察：sword DDD 领域建模

sword 的 service/domain 下按网络能力 / 协议切领域：DeviceDomain（设备）/ InterfaceDomain（接口）/ IpRouteDomain（路由）/ VpnDomain / VxlanDomain / SegmentRoutingDomain / MplsDomain / SnmpDomain / SysLogDomain 等。边界划分逻辑：每个 domain 对应一个高内聚的网络配置能力，内部封装该能力的领域规则（如路由的下一跳校验、VLAN 池分配），对外暴露领域服务。这不是教科书式纯 DDD，而是『按业务能力（capability）划领域』的务实版本。

聚合根：南向侧的聚合根是 DeviceInfo（全网唯一 id + name + vendor + 连接凭证）——所有配置操作都挂在『设备』这个聚合上、以 DeviceInfo 为入口；上层业务侧则是各 domain 自己的根实体（如园区 campus、隔离域 domain）。

取舍：按能力切 domain 的好处是和网络工程师的心智模型一致（他们就是按『配路由 / 配 VPN / 配 VLAN』思考的）、新增协议加一个 domain 即可；代价是跨 domain 的事务一致性要额外处理（比如配一条业务要同时动路由 + 接口 + VPN）——这种跨聚合操作我们用『编排层 + 补偿』兜（呼应 DynamicWorkChain 的思路）。踩坑：早期 domain 边界模糊、互相调用成网状，改成『domain 内自治 + 编排层统一协调跨 domain』后才解耦。

方法论：「领域按业务能力切、聚合根选『操作必经的实体』、跨聚合一致性交给编排层而非分布式事务」。

五、管理决策题（8 题）——团队管理 / 技术决策 / 跨部门协作 / 资源争夺

诚实定位：我带过约 20 人全栈团队（直接管理 6–8 人），是『技术负责人 / 技术经理』型管理，不是纯职能经理。回答都基于真实经历，不端架子。

Q38｜核心成员离职、模块没人接，你怎么处理的？

考察：人员风险 / 知识管理（简历明写「处理过核心成员离职、模块再分配」）

这是我在卓朗 / 瑞华高科带 RPA 流程引擎团队时真实经历的。处理分三步：止血——先稳住交付，把离职成员手上的模块按『紧急度 + 知识集中度』分级，最关键、最黑盒的模块我自己先顶上读代码 / 接需求，避免交付断档；转移——拉离职同事做结构化交接（不是口头讲，而是产出模块地图 + 关键决策记录 + 已知坑列表），并安排接手人结对一段时间；补强——借这次把『关键模块不能只有一个人懂』制度化：核心模块强制双人熟悉、关键决策写进文档库。

取舍：短期我牺牲了自己的部分架构时间去顶一线，这是对的——管理者在关键时刻要能下场，但要尽快把自己替换出来，不能长期当救火队员。全局视野：核心成员离职暴露的不是『这个人重要』，而是『团队有单点』，管理上要解决的是单点而不只是补这个坑。

数据支撑 / 反吹嘘：当时直接管理 6–8 人，处理的是模块再分配和临时维护，规模诚实就是这个量级，不夸大成『力挽狂澜』。

方法论：「人员风险本质是知识单点风险」——别等人走了才救火，平时就要让关键知识至少两个人持有、写下来。

Q39｜技术选型决策，比如 Go vs Java、自研 vs 开源，你的决策框架是什么？

考察：技术决策框架

我的框架是四问 + 一个默认倾向。四问：(1) 匹配度——它解决的是不是我真正的核心约束（性能？交付速度？团队熟悉度？）；(2) 代价——引入它的学习 / 运维 / 迁移 / 招聘成本，谁来长期背；(3) 可逆性——选错了能不能退回来，不可逆的决策要更谨慎、更高评审；(4) 团队现实——团队当前能力和它的匹配，再好的技术团队 hold 不住也是负债。默认倾向：能用成熟开源就不自研，自研只自研『别人重、我只需要薄薄一层』的部分（呼应 Q28 DynamicWorkChain）。

真实案例：backbone 控制器侧选 Go（controller-runtime 生态原生、协程适合高扇出），存量业务服务保持 Java（团队熟、生态全、重写无收益）——不为统一而统一，按场景分栈，这正是我『四栖』的底气也是负担。

取舍：『技术先进』和『团队能 hold』冲突时，我偏向后者——P8 的技术决策要为『团队三年后还维护得动』负责，不是炫技。踩坑：早期推过一个团队不熟的框架，短期爽、长期没人能深入排障，最后回退。教训进了框架的第 (4) 问。

方法论：「选型是为『未来要维护它的人』选，不是为现在写它的人选」——可逆性和团队现实，比技术先进性权重更高。

Q40｜跨部门 / 跨厂商协作，利益和节奏不一致时你怎么推进？

考察：跨部门协作（多设备厂商对接经验）

我在 backbone 多厂商设备对接里反复经历这个——华为 / H3C / 中兴 / 白盒厂商节奏、接口口径、配合意愿都不同。推进方法：(1) 先对齐『共同目标 + 各自收益』——讲清楚联调成功对各方的价值，而不只是『你们配合一下』；(2) 关键约束书面化 + 签字（呼应 Q24）——多方协作口头共识一定走形，接口契约 / 时间点 / 责任边界必须落纸；(3) 用契约测试做『客观裁判』——出问题时不扯皮，跑契约用例看是谁不符合约定，把『人对人的争论』变成『对照标准的核对』；(4) 找到对方的 key person 和决策链，别在执行层空转。

取舍：跨部门推进经常要牺牲『最优技术方案』换『各方都能接受的可行方案』——我接受次优但能落地的，而不是死磕最优但推不动的。踩坑：早期靠『技术上我对』硬推，结果对方部门不买账、进度卡死；后来明白跨部门是『说服』不是『证明』，要用对方的语言和利益讲。

方法论：「跨部门协作把『争论』转成『核对标准』」——契约 / 数据 / 共同目标是裁判，让协作不依赖谁嗓门大。

Q41｜多业务线抢研发 / 测试资源，作为技术负责人你怎么分配？

考察：资源争夺 / 优先级

原则是『按价值和风险排，不按嗓门排』。做法：(1) 把所有诉求摆到同一张表，用『业务价值 × 紧急度 × 风险』统一打分，让争夺从『谁声音大』变成『谁分高』；(2) 保护关键路径资源——测试环境 / 核心人力这种瓶颈资源，优先保障最高价值和最高风险（如 P0 修复、合规交付）的事项；(3) 冲突上升而不内部硬扛——我决策不了的跨业务优先级，带着数据和方案上升给上级拍，而不是自己和稀泥或硬顶。

取舍：资源永远不够，分配的本质是『敢于对低优先级说不 / 说晚』——什么都答应等于什么都做不好。我宁可明确告诉某业务线『你这个排在 Q3』，也不模糊承诺然后跳票。全局视野：作为技术负责人，资源分配还要留一部分给『不紧急但重要』的事（技术债 / 能力建设），否则团队会被业务需求榨干、长期失速。

踩坑：早期来者不拒、什么都接，结果团队疲于奔命、质量下滑、核心架构没人推。学会『显式优先级 + 敢拒绝』后团队反而更被信任。

方法论：「资源分配是『显式取舍 + 敢说不』，并永远给重要不紧急的事留额度」。

Q42｜40+ 微服务的技术债，你怎么识别、分类、排优先级？

考察：技术债治理（结合 backbone 规模）

识别：从三个信号找债——故障复盘（同类问题反复出现 = 有结构性债）、变更成本（改一个小功能要动很多地方 = 耦合债）、可观测缺口（出事查不出原因 = 监控债）。分类：我分四类——架构债（服务边界 / 耦合）、代码债（重复 / 坏味道）、测试债（覆盖 / 契约缺失）、运维债（部署 / 监控 / 文档）。排序：用『利息高低』排——这个债现在每周让我们付出多少（故障、返工、变更慢），利息高的先还；利息低的（不疼的烂代码）可以不还。

真实案例：backbone 早期『注册中心和配置耦合』『南向无契约测试』『Kafka 投递语义不分级』都是高利息债——它们直接对应过线上故障，所以优先还（分别对应 Q5/Q32/Q31 的整改）。而一些命名 / 风格债利息低，没动。

取舍：技术债不是要还清，是要管理到『利息可承受』——追求零技术债是不现实也不经济的；P8 要会判断『哪些债值得还、哪些债该带着跑』。踩坑：见过团队为『代码洁癖』重构稳定老模块，引入新 bug、收益为负——还债也要看 ROI。

方法论：「按『债的利息』而非『债的丑陋程度』排优先级」——疼的、反复让你付出的债先还，不疼的可以一直欠着。

Q43｜20 人团队的能力建设和梯队，你怎么搭？招人看什么？

考察：团队建设 / 招聘

梯队：我倾向『关键模块双人 + 能力梯度』——每个核心方向有一个能扛事的 + 一个在成长的，避免单点（呼应 Q38）；新人从『有人带的明确任务』起步，逐步给『模糊度更高』的活，按能不能 hold 模糊度判断能不能往上带。能力建设：把故障复盘 / Runbook / 架构决策记录做成团队资产（我在一线就是这么沉淀的），让经验沉淀在文档而不只在人脑；定期做技术分享把个人知识团队化。

招聘看什么：(1) 解决问题的思路比『会不会某框架』重要——框架可学，思维方式难教；(2) 能不能讲清楚一次真实的踩坑和复盘——这比背八股更能看出深度（我自己面人就爱问这个）；(3) 协作信号——能不能承认不懂、能不能接受别人意见。取舍：我偏好『有潜力 + 踏实』而非『简历华丽 + 难协作』——一个搞不定协作的高手对 20 人团队是负资产。

踩坑：早期招人偏重『技术亮点』，进来发现协作 / 落地能力跟不上；现在面试一定花时间看『真实项目里他到底干了什么、怎么和人配合的』。

方法论：「招『思维 + 协作』，建『双人 + 文档』的抗单点梯队」——团队能力的护城河是沉淀下来的资产，不是某几个明星。

Q44｜P0 故障，作为负责人除了救火，管理上你会做什么？

考察：故障管理 / 复盘文化（简历多次 P0 经历）

技术救火之外，管理动作分三段。故障中：先明确指挥（一个人定调、避免多头）、分工（一拨止血、一拨查根因、一拨对外同步），我作为负责人的核心职责是做决策和挡干扰（挡住外部追问让一线专注），而不是自己埋头敲键盘。故障后：组织无指责复盘（blameless）——对事不对人，目标是找系统漏洞不是找背锅的，否则下次没人敢暴露问题；产出Runbook（我简历里 P0 复盘都沉淀成了 Runbook：厂商协议差异、存储卷漂移、Sidecar 资源估算偏差）。长期：把复盘出的改进项纳入排期跟踪到关闭，否则复盘变成走过场。

取舍：复盘要不要追责——我坚定选 blameless。代价是『看起来没人为故障负责』，但换来的是团队敢暴露真问题、根因能挖到底，这对长期稳定性远比『杀鸡儆猴』值钱。全局视野：P0 的真正成本不是这次故障，是『有没有从中长出免疫力』——同一类故障再发才是管理失职。

方法论：「故障中管理者做决策和挡干扰，故障后做无指责复盘 + 改进项闭环」——救火靠一线，免疫力靠复盘文化。

Q45｜你要推动一个架构演进 / 重构，但 leadership 觉得『现在能跑就别动』，怎么办？

考察：向上管理 / 推动变革

不硬推、也不放弃，用『风险 + 数据 + 小步验证』说服。(1) 把技术语言翻译成业务风险——不说『这架构烂』，说『这个耦合每月让我们多花 X 人天返工 / 导致过 N 次 P0 / 让新功能上线慢 Y 天』，把技术债翻译成 leadership 听得懂的成本和风险（呼应 Q42『利息』）；(2) 不要『大重构』要『小步可验证』——提一个小范围、低风险、收益可度量的切入点先做出来，用结果说话（绞杀者模式，呼应 Q27）；(3) 给『不动』的代价定价——让 leadership 看到不是『动 vs 不动』，而是『现在小投入 vs 将来大爆雷』。

取舍：如果数据和小步验证都说服不了，那可能是我对优先级的判断和业务现实有差距——P8 要能接受『我的技术判断未必是当下最高优先级』，而不是觉得 leadership 不懂技术。真实做法：近 4 年带团队做云原生 / Go 迁移，就是用『新服务先 Go、存量先容器化』的小步策略一点点推，而不是一上来要求全栈重写——结果是落地了 3 个生产级控制器、40+ 微服务云原生化。

方法论：「推动变革 = 把技术债翻译成业务成本 + 用最小可验证步骤拿结果」——说服 leadership 靠风险定价和既成事实，不靠技术正确性辩论。

六、行业认知题（2 题）——卫星互联网行业趋势与竞争格局

诚实定位：我不是航天行业内人，以下是作为技术人对公开信息的判断，面试时会讲『我怎么看』而非假装『我懂航天』。数据为公开报道口径，仅供判断参考。

Q46｜你怎么看银河航天所处的卫星互联网赛道的技术趋势？这对软件 / 云原生意味着什么？

考察：行业技术趋势判断

我看到的几个明确趋势：(1) 卫星正在『从单星定制走向批量制造』——银河航天的数字化『星工厂』据公开报道已具备年产 100–150 颗中型卫星、研制周期缩短约 80% 的能力，灵犀系列用柔性太阳翼 + 平板可堆叠支持『一箭多星』。这意味着地面软件要从『管几颗星』升级到『管一个星座（成百上千颗）』——批量化、自动化、规模化是软件侧的硬需求。(2) 手机直连卫星成为新焦点（已发射技术试验星 + 相控阵天线量产推进），意味着星地融合、海量终端接入、实时调度的复杂度上一个台阶。(3) 星座组网 → 星间链路 / 星上处理，对『确定性时延、动态拓扑、资源编排』的要求越来越高。

对软件 / 云原生意味着什么（也是我的切入点）：星座规模化运营本质是『海量异构节点的编排、采集、调度、可观测』——这恰恰是云原生 / K8s / 微服务擅长的，也是我做 40+ 微服务网络平台 + Operator 控制器的主场。我做的『telemetry 采集 → DetNet 多约束编排 → 事务化下发 → 失败回切』链路，和『卫星测运控 + 动态拓扑调度』是同构的。反吹嘘：我能迁移的是『大规模分布式编排 / 测控』的工程能力，轨道力学、频率管理、星上载荷这些行业纵深我需要入职后补。

取舍判断：行业现在是『先到先得的卡位赛』（轨道 / 频谱资源有限），所以速度和规模化交付能力是当前矛盾的主要方面——这也意味着软件团队的价值在『让卫星造得快、组网管得过来』，工程效率和自动化是核心。

方法论：「看一个硬件密集行业的软件机会，就看它在『规模化 / 自动化』的哪个环节卡了脖子」——卫星互联网卡在『从造星到管星座』的规模化，软件正是解这个的。

Q47｜国内卫星互联网竞争格局你怎么看？银河航天作为民营商业航天的位置在哪？

考察：竞争格局判断

公开信息看，国内低轨星座是『两大国家级主导星座 + 一批商业航天』的格局：GW 星座 / 中国星网（国家队，规划约 1.3 万颗）和千帆星座 / G60（上海垣信，规划约 1.5 万颗，2025 年进入常态化组网），加上鸿鹄-3 等商业计划；国际上对标 Starlink。卫星互联网牌照已发、商业航天连续写入政府工作报告，是明确的政策强支撑赛道。

银河航天的位置（我的判断）：它是民营商业航天里『偏制造 + 技术验证』的头部之一——优势在『数字化星工厂量产能力 + 平板可堆叠卫星 + 手机直连 / 相控阵天线』这些工程化、产业化的硬能力，是『国家队组网 + 商业力量补充 / 供应链 / 技术先行验证』生态里的重要一环，而不是去和国家队抢主星座运营。反吹嘘：我对各家具体进度只能给公开报道口径的判断，不会假装有内部信息。

取舍判断 / 对我的意义：选择『偏制造 + 技术验证 + 民营』的位置，对软件人意味着节奏快、要快速迭代、要支撑高频发射和量产——这种环境我适应（我近 4 年就是在快速迭代里推云原生 / Go 落地），但也要清醒：民营商业航天有融资 / 订单周期波动，这是我评估机会时会理性看待的现实，不盲目乐观也不因噎废食。

方法论：「看竞争格局先分清『谁在抢什么层』」——国家队抢主星座运营、商业航天抢制造 / 技术 / 供应链卡位，看清楚每家在生态里的位才能判断它的软件团队要解什么题。

七、薪资谈判题（3 题）——HR 轮

口径与简历 / JD 一致：JD 给 2.8–3.5 万·15 薪，简历薪资期望写『面议（参考 28–35K·15 薪）』，目标定位 P7 / 技术专家。

Q48｜你的薪资期望是多少？

考察：薪资锚定 + 灵活度

直接给区间不绕弯：月薪参考 28–35K、15 薪结构，和贵司这个岗位的 band 是吻合的，所以薪资上我们大概率不会有大分歧。具体到点位，我希望落在区间中上部，理由是『Go + 云原生 + 40+ 微服务一线架构 + 10 年经验』在硬技能上能直接顶岗、上手成本低；但我不会咬死某个数——整体回报（base + 绩效 + 期权 / 长期激励 + 成长空间）一起看，如果在卫星互联网这种高成长赛道有好的平台和方向，单点薪资我可以灵活。

反吹嘘 / 诚实：我也清楚自己的『卫星 / 遥感行业纵深』是邻近迁移而非行业内经验（综合匹配度我自评约 88%），所以不会拿一个『行业内资深』的价来要，我要的是和『能直接顶 Go / 云原生 / 全栈架构、行业 know-how 入职补』这个真实定位匹配的价。

方法论：「先确认区间对齐降低对立，再用『可 defend 的价值』锚点位，整体回报一起谈」——谈薪是匹配不是博弈。

Q49｜为什么从上一家离开？/ 你的离职原因是什么？

考察：离职动机 / 稳定性

讲真实且向前看的版本：我近几年聚焦在网络 / 云原生平台的架构和一线交付，技术上已经比较成熟（落地了 3 个生产级控制器、40+ 微服务平台、2 项发明专利），现在想找一个『技术深度能继续用上、同时方向更有长期想象空间』的平台。卫星互联网 / 商业航天是我看好的高成长赛道，而且我『测控同构 + 云原生 + 全栈』的能力在这里能直接发力——这是『奔着对的方向去』，而不是『被动逃离』。

反吹嘘 / 不踩前东家：我不会说前公司不好——之前的经历给了我扎实的分布式 / 测控 / 多厂商工程历练，这些正是我现在的底气。离开是因为我想要的下一段成长（行业纵深 + 更大规模星座级系统）需要换平台，纯属职业发展节奏。

方法论：「离职原因讲『往哪去』而不是『从哪逃』，不贬低前东家」——面试官听的是你的判断力和稳定性，不是吐槽。

Q50｜你的职业规划是什么？想做管理还是技术？

考察：职业规划 / 岗位匹配度

我的规划很清楚：走技术专家 / 架构路线为主——这个岗位我对标的就是 P7 / 技术专家方向。近几年我带过约 20 人团队（直接管理 6–8 人），所以我不排斥也具备管理能力，但我更想把重心放在『架构 + 攻坚 + 把团队的技术判断力带起来』，而不是纯职能管理。理想状态是『技术决策能拍板、关键硬骨头能下场、团队能力能被我带高』的技术负责人 / 架构师角色。

和这个岗位的匹配：JD 要的『架构设计 ≥3 年 + 全栈 + 新技术调研 / 培训 / 研发能力建设』正好是技术专家路线的职责——既要能架构、又要能落地、还要能带团队成长，和我的规划高度一致。长期：我希望在卫星互联网这种有纵深的行业里把『云原生 / 测控工程能力』和『航天行业 know-how』结合，长成这个领域里少数『既懂大规模分布式系统、又懂行业』的架构师——这需要时间积累，所以我看重平台的长期性，也愿意沉下来。

方法论：「职业规划要和岗位职责对齐、和个人优势对齐、有长期主义」——讲清楚『我想成为什么样的人』比『我想升到什么级别』更有说服力。

附录 A：题目分布自检

类别	计划数量	实际题号	实际数量
技术深度题	12	Q1–Q12	12 ✅
架构设计题（含 4A）	10	Q13–Q22	10 ✅
TOGAF 架构方法论题	5	Q23–Q27	5 ✅
项目追问题	10	Q28–Q37	10 ✅
管理决策题	8	Q38–Q45	8 ✅
行业认知题	2	Q46–Q47	2 ✅
薪资谈判题	3	Q48–Q50	3 ✅
合计	50	Q1–Q50	50 ✅

附录 B：可复用「数字弹药」清单（均为可 defend 口径，作答时按需引用）

10 年研发经验，近 4 年聚焦云原生 / K8s；本科自动化专业，早期做过自动化控制系统研发。
backbone-controller：网云融合骨干网控制器，40+ 微服务（实际约 49 个模块），覆盖控制 / 数据 / 管理面；核心接口 P99 控制在 50ms 量级（压测口径）；确定性网络方向核心发明专利 2 项；某类告警 MTTD 从约 30 分钟降至 1–3 分钟级别。
sword：园区网全栈管理平台，SPI 插件化，多厂商接入；单实例维护千级设备长连接（压测约 1.5K，生产形态略小）。
Cozystack PaaS：落地 3 类资源任务模板，多租户隔离经混合负载验证；新租户开通从手工脚本缩短至单条声明式提交。
落地 3 个生产级控制器（controller-runtime / kubebuilder / Operator）。
团队管理：带过约 20 人全栈团队、直接管理 6–8 人，处理过核心成员离职与模块再分配。
P0 故障复盘沉淀：厂商协议差异、存储卷漂移、Sidecar 资源估算偏差 → 团队 Runbook。

附录 C：必背的三条「诚实搭桥」话术（防御行业 gap）

行业 gap：「我没有直接的卫星测运控 / 遥感项目，但我做的『telemetry 采集 → 多约束编排 → 事务化下发 → 失败回切』和卫星测运控的『测量—编排—下发—回切』是同构的，加上自动化本科 + 中科航宇控制系统背景，迁移成本低——但行业纵深（轨道 / 频管 / 保密分级）需要入职后补，我不假装已经懂。」
前端深度：「我定位是后端 / 云原生为主、全栈可补位。Vue/React 的开发改造、千级图元的 Canvas + 虚拟化性能优化我能独立做（园区网平台验证过），但复杂交互组件 / 动效我会和专职前端协作，不过度承诺。」
信创 / 保密：「我没有大规模信创栈落地战绩，但有『多厂商异构适配 + 方言隔离 + 契约测试』的方法论可迁移到麒麟 / 鲲鹏 / 达梦；信创 / 政审 / 保密相关要求我如实说明并表达适配意愿。」

备注（自动生成说明）：本题库由调度任务于 2026-06-01 自动生成。技术细节基于已挂载实读的 backbone-conroller（约 49 个微服务模块）与 sword（园区网全栈管理平台）源码，数据指标与同目录 石洋洋-银河航天-全栈软件开发工程师-简历.docx 严格对齐；4A / TOGAF 为内置方法论知识（项目资料/ 目录本次为空）；行业认知部分为公开报道口径，仅供判断参考、非内部信息。全部答案按「可 defend、场景限定、反吹嘘」原则编写。