摘要 1. 緒論 2. 相關工作 3. 方法 3.1 滾動快門成像模型 3.2 雙快門互補 3.3 振動頻率恢復 4. 實驗 5. 結論 論證總覽

Abstract — 摘要

We present a technique for optical sensing of vibrations at frequencies up to 63kHz — far beyond the frame rate of the cameras used. Our approach leverages a dual-shutter camera system consisting of a rolling shutter (RS) camera and a global shutter (GS) camera, both operating at only 130 frames per second. The RS camera captures distorted laser speckle patterns that encode high-frequency vibration information due to the sequential row-by-row exposure of the rolling shutter. The GS camera simultaneously acquires an undistorted reference speckle pattern. By comparing the RS and GS speckle images, we recover dense, per-pixel vibration signals from multiple vibrating sources in the scene simultaneously. We demonstrate applications including recovering audio from speech and music, and analyzing vibration modes of physical objects such as tuning forks.
本文提出一種光學振動感測技術,可偵測高達 63kHz 的振動頻率——遠超所用相機的幀率。我們的方法利用由滾動快門(RS)相機全域快門(GS)相機組成的雙快門相機系統,兩者皆僅以每秒 130 幀運作。RS 相機因其逐行曝光的特性,擷取編碼了高頻振動資訊的扭曲雷射散斑圖案。GS 相機則同時取得未失真的參考散斑圖案。透過比對 RS 與 GS 散斑影像,我們可同時從場景中多個振動源恢復稠密的逐像素振動訊號。我們展示了多項應用,包括從語音和音樂中恢復音訊,以及分析音叉等物理物件的振動模態
段落功能 全文總覽——以一組驚人的數字對比(63kHz vs. 130Hz)開場,迅速建立技術張力,再依序說明系統組成、原理與應用。
邏輯角色 摘要同時承擔「問題框定」與「方案預告」的雙重功能:先用頻率差距凸顯技術挑戰,再以雙快門互補的概念一句話交代解法核心,最後以具體應用錨定實用價值。
論證技巧 / 潛在漏洞 「63kHz」與「130fps」的並置產生極強的修辭衝擊力,讓讀者立即意識到頻率提升倍率接近 500 倍。但摘要未提及此技術需要雷射照明與散斑成像的前提條件,可能讓讀者誤以為可用於一般自然光場景。
The key insight is that a rolling shutter acts as a natural temporal encoder: because each row of the sensor is exposed at a slightly different time, high-frequency vibrations leave spatially varying signatures across the rows of a single RS frame. However, decoding these signatures is ill-posed without a reference, since the speckle pattern itself is spatially random. The global shutter camera provides exactly this missing reference, enabling robust vibration recovery even in the presence of noise, multiple sources, and complex vibration patterns.
核心洞察在於:滾動快門天然地充當時序編碼器——由於感測器的每一列在略微不同的時刻曝光,高頻振動會在單幀 RS 影像的各列間留下空間變化的特徵。然而,在缺乏參考的情況下,解碼這些特徵是一個不適定問題,因為散斑圖案本身在空間上是隨機的。全域快門相機恰好提供了這個缺失的參考,使得即使在雜訊、多源及複雜振動模式的條件下,仍能穩健地恢復振動訊號。
段落功能 核心洞察闡述——將「滾動快門缺陷」重新詮釋為「時序編碼優勢」。
邏輯角色 此段建立了全文最關鍵的概念翻轉:傳統上被視為成像缺陷的滾動快門效應,在此被視為可資利用的資訊編碼機制。GS 相機的引入則解決了解碼的不適定性。
論證技巧 / 潛在漏洞 「缺陷即優勢」的逆向思維是計算攝影領域的經典策略,極具說服力。但作者承認需要 GS 參考這一事實,也隱含了系統複雜度的代價——需要兩台相機精確同步與校準。

1. Introduction — 緒論

Vibration sensing plays a critical role in a wide range of applications, from structural health monitoring and industrial quality control to audio surveillance and musical acoustics analysis. Traditional vibration sensors, such as accelerometers and microphones, require physical contact with or close proximity to the vibrating object, which limits their applicability in scenarios where the target is remote, fragile, or hazardous. Non-contact vibration measurement via optical methods is thus highly desirable, and has been an active area of research in the fields of computer vision and computational photography.
振動感測在廣泛的應用領域中扮演關鍵角色,從結構健康監測與工業品質管控,到音訊監控與音樂聲學分析。傳統振動感測器——如加速規與麥克風——需要與振動物件進行物理接觸或處於近距離,這限制了它們在目標物為遠距、易碎或危險環境中的適用性。因此,透過光學方法進行非接觸式振動量測極具需求,且一直是電腦視覺與計算攝影領域的活躍研究方向。
段落功能 建立研究場域——從實際應用需求出發,指出傳統接觸式感測器的限制,導入非接觸式光學方法的必要性。
邏輯角色 論證鏈的起點:以應用場景的廣泛性建立研究價值,再以傳統方法的「接觸限制」建立研究缺口,自然過渡到光學解決方案。
論證技巧 / 潛在漏洞 列舉多個應用場景(結構監測、工業管控、音訊監控)是有效的動機建構策略,讓讀者感受到問題的普遍性。但「非接觸」需求的強度在不同應用中差異極大——語音恢復與結構監測的技術需求完全不同,此處的合併可能略嫌粗糙。
Existing optical approaches to vibration sensing broadly fall into two categories. High-speed cameras can directly capture vibrations at thousands of frames per second, but they are expensive, bulky, and produce massive amounts of data that are difficult to process in real time. Stroboscopic methods achieve temporal super-resolution by varying the illumination frequency, but they require the vibration to be periodic and can only measure one frequency at a time. More recently, the "visual microphone" approach of Davis et al. recovers sound from subtle visual motion in video, but it is limited to frequencies below half the camera frame rate due to the Nyquist limit, and requires computationally expensive motion magnification.
現有的光學振動感測方法大致分為兩類。高速攝影機可以每秒數千幀直接擷取振動,但價格昂貴、體積笨重,且產生的海量資料難以即時處理頻閃法透過改變照明頻率來實現時間超解析度,但它要求振動必須為週期性的,且一次僅能量測一個頻率。近期 Davis 等人的「視覺麥克風」方法從影片中的細微視覺運動恢復聲音,但受限於奈奎斯特極限僅能處理低於相機幀率一半的頻率,且需要計算成本高昂的運動放大處理
段落功能 批判既有方法——系統性地列舉三類光學振動感測方案的各自限制。
邏輯角色 「問題-解決方案」論證中的問題深化:高速相機受制於硬體成本、頻閃法受制於週期性假設、視覺麥克風受制於奈奎斯特極限,三方面的限制為本文的突破點精確定位。
論證技巧 / 潛在漏洞 將三類方法各配一個致命缺陷,營造出「現有方法皆不足」的印象。但作者對「視覺麥克風」的批評可能過於簡化——後續改進版本已能在一定程度上突破奈奎斯特極限。此外,雷射干涉儀作為成熟的非接觸量測技術未被提及。
In this paper, we propose a fundamentally different approach. We observe that the rolling shutter mechanism found in most CMOS sensors can be repurposed as a high-frequency temporal sampling device. In a rolling shutter camera, each row of pixels is exposed at a slightly different time. If the scene contains a vibrating object illuminated by a laser, the resulting speckle pattern will shift differently for each row, creating a spatially encoded record of the temporal vibration signal. By pairing this with a global shutter camera that captures the same speckle pattern without temporal encoding, we obtain a clean reference that enables us to decode vibration frequencies up to 63kHz using sensors running at merely 130Hz. Our system can simultaneously sense vibrations from multiple independent sources in a single scene, effectively functioning as an optical microphone array.
本文提出一種根本性不同的方法。我們觀察到,大多數 CMOS 感測器內建的滾動快門機制可被重新利用為高頻時序取樣裝置。在滾動快門相機中,每一列像素在略微不同的時刻曝光。若場景中包含以雷射照明的振動物件,所產生的散斑圖案將在各列間產生不同的偏移,形成振動時間訊號的空間編碼記錄。將此與一台擷取相同散斑圖案但不具時序編碼的全域快門相機配對,我們便獲得了乾淨的參考,使我們能以僅 130Hz 的感測器解碼高達 63kHz 的振動頻率。我們的系統可同時感測場景中多個獨立振動源,實質上形成光學麥克風陣列
段落功能 提出解決方案——完整概述雙快門系統的設計理念與能力邊界。
邏輯角色 承接上段的問題陳述,此段扮演關鍵「轉折」角色:從「現有方法不足」過渡到「本文方案」。核心創新在於將滾動快門的「缺陷」——逐行曝光的時間差——轉化為可資利用的時序編碼能力。
論證技巧 / 潛在漏洞 「光學麥克風陣列」的比喻極為有力,將抽象的技術概念映射至讀者熟悉的音訊處理領域。「500 倍頻率提升」(63kHz / 130Hz)的數字衝擊力驚人,但此上限取決於感測器解析度(列數),作者在此未明示這一依存關係。
Visual vibration analysis has been explored extensively in the computer vision community. The seminal work by Davis et al. introduced the "visual microphone" concept, recovering intelligible speech from high-speed video of everyday objects such as chip bags and plant leaves. Subsequent improvements by Davis et al. and Wadhwa et al. used phase-based motion processing to amplify subtle motions. However, these methods are fundamentally limited by the Nyquist sampling theorem — vibration frequencies above half the camera frame rate cannot be recovered. While some works have explored temporal aliasing to partially overcome this limit, they require strong prior assumptions about the vibration signal and cannot handle multiple simultaneous sources.
電腦視覺社群對視覺振動分析已有廣泛探索。Davis 等人的開創性工作引入了「視覺麥克風」概念,從日常物件(如零食袋、植物葉片)的高速影片中恢復可辨識的語音。後續 Davis 等人與 Wadhwa 等人的改進使用基於相位的運動處理來放大細微運動。然而,這些方法從根本上受限於奈奎斯特取樣定理——無法恢復超過相機幀率一半的振動頻率。雖然部分研究嘗試利用時間混疊來部分克服此限制,但它們需要對振動訊號有強先驗假設,且無法處理同時存在的多個振動源
段落功能 文獻回顧——追溯視覺振動分析的學術脈絡,從視覺麥克風到相位放大方法。
邏輯角色 建立學術譜系,將本文置於「突破奈奎斯特極限」的研究脈絡中。奈奎斯特定理作為理論天花板被反覆強調,為本文「以空間換時間」的突破策略鋪路。
論證技巧 / 潛在漏洞 以「根本性限制」(奈奎斯特定理)來定性先前方法,暗示本文方法突破了物理定律——但實際上本文仍遵守奈奎斯特定理,只是將取樣頻率從時域(幀率)轉移到空域(列數),並非真正的「超奈奎斯特」。
The rolling shutter (RS) effect has traditionally been considered an imaging artifact that causes undesirable distortions such as wobble, skew, and partial exposure. Most prior work focuses on correcting or removing RS distortions. However, a few recent works have begun to exploit RS readout as a source of temporal information. Ait-Aider et al. used RS distortions for motion estimation of rigid bodies, and Saurer et al. showed that RS can aid in visual odometry. Most relevant to our work, Pundlik et al. demonstrated that RS cameras can sense acoustic vibrations up to a few kHz by observing laser speckle shifts across rows. Our work significantly extends this line of research by introducing the dual-shutter framework, which enables robust recovery at far higher frequencies and from multiple simultaneous sources.
滾動快門(RS)效應傳統上被視為一種成像偽影,會造成如搖晃、傾斜與部分曝光等不良失真。大多數先前研究聚焦於校正或消除 RS 失真。然而,少數近期研究開始將 RS 讀出機制作為時間資訊的來源加以利用。Ait-Aider 等人利用 RS 失真進行剛體運動估測,Saurer 等人展示 RS 可輔助視覺里程計。與本文最相關的是 Pundlik 等人的研究,證明了 RS 相機可透過觀測雷射散斑在列間的偏移來感測數千赫茲的聲學振動。本研究透過引入雙快門框架,顯著延伸了這一研究線,使得在更高頻率下對多個同時振動源的穩健恢復成為可能。
段落功能 文獻定位——將本文放置於「利用滾動快門效應」的新興研究脈絡中。
邏輯角色 此段建立了關鍵的學術譜系:RS 校正(主流)-> RS 利用(新興)-> 雙快門框架(本文),展現方法的演進邏輯。Pundlik 等人的工作被定位為最直接的前驅,本文在此基礎上做出兩大超越:頻率範圍與多源處理。
論證技巧 / 潛在漏洞 先承認 RS 在主流視覺中的負面形象,再展示其正面利用,形成有效的「觀點翻轉」。但與 Pundlik 等人的比較較為概括,未提供具體的數值差距(如頻率上限差異),可能讓讀者難以精確評估本文的增量貢獻。
Laser speckle imaging is a well-established technique in optical metrology. When coherent laser light illuminates a rough surface, the scattered light produces a random interference pattern known as a speckle pattern. Surface displacement causes the speckle pattern to shift proportionally. Laser Doppler Vibrometers (LDVs) represent the gold standard for non-contact vibration measurement, achieving frequency ranges up to MHz. However, LDVs are point sensors — they measure vibration at a single spatial point and must be scanned across the surface to build a spatial map, making full-field measurement time-consuming. Our approach combines the spatial parallelism of camera-based imaging with temporal resolution approaching that of dedicated vibration instruments.
雷射散斑成像是光學計量學中成熟的技術。當同調雷射光照射粗糙表面時,散射光產生稱為散斑圖案的隨機干涉花紋。表面位移會使散斑圖案按比例偏移。雷射都卜勒振動計(LDV)是非接觸式振動量測的黃金標準,頻率範圍可達百萬赫茲等級。然而,LDV 是點感測器——它在單一空間點量測振動,必須在表面上掃描才能建立空間分布圖,使全場量測極為耗時。本方法結合了相機成像的空間平行性與接近專用振動儀器的時間解析度
段落功能 橫向比較——將本文方法與光學計量學的黃金標準 LDV 進行對比定位。
邏輯角色 處理潛在的「為何不直接用 LDV?」質疑。透過指出 LDV 的「點量測」本質限制,為本文的「全場成像」優勢騰出論證空間。
論證技巧 / 潛在漏洞 將 LDV 定位為「黃金標準」是誠實的承認,但隨即以「點感測」限制削弱其優勢。然而,LDV 的頻率範圍(MHz 級)仍遠超本文的 63kHz,且 LDV 不需要散斑成像的特殊光學配置。作者的比較略有選擇性——突出空間優勢而淡化頻率劣勢。

3. Method — 方法

3.1 Rolling Shutter Imaging Model — 滾動快門成像模型

In a rolling shutter camera, the sensor does not expose all pixels simultaneously. Instead, rows are exposed sequentially from top to bottom, with a constant time delay between consecutive rows known as the row readout time tr. For a sensor with N rows, the total readout time is T = N · tr, and the k-th row is exposed at time tk = k · tr relative to the first row. When a surface vibrates at frequency f, the laser speckle pattern observed at the sensor shifts in proportion to the instantaneous displacement. Consequently, different rows of the RS image observe the speckle pattern at different phases of the vibration, effectively converting a temporal signal into a spatial pattern across the sensor rows.
滾動快門相機中,感測器並非同時曝光所有像素,而是由上而下逐列順序曝光,相鄰列之間存在一個固定的時間延遲,稱為列讀出時間 t_r。對於具有 N 列的感測器,總讀出時間為 T = N * t_r,第 k 列相對於第一列的曝光時刻為 t_k = k * t_r。當表面以頻率 f 振動時,感測器觀測到的雷射散斑圖案隨瞬時位移成比例偏移。因此,RS 影像的不同列觀測到散斑圖案在振動不同相位的狀態,實質上將時間訊號轉換為感測器列間的空間圖案
段落功能 方法推導第一步——建立滾動快門的數學模型與時空轉換機制。
邏輯角色 這是整個方法的物理基礎。透過明確的數學關係(t_k = k * t_r),將直覺性的「逐列曝光」概念精確化,為後續的頻率恢復演算法提供推導起點。
論證技巧 / 潛在漏洞 以簡潔的數學符號建立清晰的成像模型,避免了過度複雜的推導。「時間-空間轉換」的概念類似於光纖通訊中的色散效應,熟悉訊號處理的讀者會感到自然。但此模型假設列讀出時間 t_r 精確已知且恆定,實際感測器中可能存在的時序抖動未被討論。
The maximum vibration frequency that can be sensed is determined by the Nyquist criterion applied to the spatial sampling of the rolling shutter. Since N rows sample the vibration over the total readout time T, the effective sampling rate is fs = N / T = 1 / tr. For a typical CMOS sensor with a row readout time of approximately 8 microseconds, this yields an effective sampling rate of 125kHz, and a maximum recoverable frequency of approximately 63kHz. This is roughly 500 times the frame rate of the camera, demonstrating the remarkable temporal resolution gain achieved by exploiting the rolling shutter mechanism.
可感測的最大振動頻率由奈奎斯特準則應用於滾動快門的空間取樣所決定。由於 N 列在總讀出時間 T 內對振動進行取樣,等效取樣率為 f_s = N / T = 1 / t_r。對於列讀出時間約 8 微秒的典型 CMOS 感測器,等效取樣率為 125kHz,最大可恢復頻率約為 63kHz。這大約是相機幀率的 500 倍,展現了利用滾動快門機制所實現的驚人時間解析度增益。
段落功能 量化分析——推導可感測頻率的理論上限。
邏輯角色 此段將定性的「可感測高頻振動」主張量化為具體數字(63kHz),為摘要中的核心承諾提供數學支撐。等效取樣率的推導清晰地展示了「空間取樣替代時間取樣」的原理。
論證技巧 / 潛在漏洞 「500 倍」的數字重複出現,強化了核心衝擊力。但此計算假設感測器的所有列皆被有效使用,實際上邊緣效應、雜訊與曝光時間長度都會降低有效頻率上限。此外,每幀僅提供一次振動的空間快照,長時間振動追蹤需要跨幀分析。
When a rough surface vibrates, the scattered laser speckle pattern undergoes a lateral shift proportional to the surface displacement. Formally, if the surface at a point undergoes displacement d(t) at time t, the speckle pattern observed at the sensor shifts by Δx(t) = M · d(t), where M is a magnification factor determined by the imaging geometry and the optical system. In the rolling shutter image, the k-th row observes a speckle shift of Δx(k) = M · d(k · tr). The challenge is to recover the displacement signal d(t) from the spatially varying speckle pattern in a single RS frame.
當粗糙表面振動時,散射的雷射散斑圖案會產生與表面位移成正比的橫向偏移。形式上,若表面某點在時刻 t 產生位移 d(t),感測器觀測到的散斑圖案偏移量為 delta_x(t) = M * d(t),其中 M 為由成像幾何與光學系統決定的放大倍率。在滾動快門影像中,第 k 列觀測到的散斑偏移量為 delta_x(k) = M * d(k * t_r)核心挑戰是從單幀 RS 影像中空間變化的散斑圖案恢復位移訊號 d(t)
段落功能 數學建模——將散斑偏移與表面位移的物理關係形式化。
邏輯角色 連接物理現象與數學框架:從散斑的光學特性推導出可量測的訊號模型,為後續的恢復演算法提供正問題的數學描述。
論證技巧 / 潛在漏洞 線性偏移模型 (delta_x = M * d) 假設小位移條件成立。對於大振幅振動,散斑圖案可能經歷去相關(decorrelation)而非簡單偏移,此模型便不再適用。作者未明確討論此線性假設的有效範圍。

3.2 Dual-Shutter Complementarity — 雙快門互補

Recovering the displacement signal from a rolling shutter speckle image alone is fundamentally ill-posed: the speckle pattern is a random, high-contrast pattern whose spatial structure is unrelated to the vibration. Without knowing the original (undisplaced) speckle pattern, it is impossible to distinguish between spatial features caused by vibration and those inherent to the speckle itself. This is where the global shutter camera becomes essential. The GS camera captures the same speckle pattern at a single instant in time, providing a spatially undistorted reference. Since both cameras view the same scene from nearly identical viewpoints, the GS image serves as a ground-truth baseline against which row-by-row shifts in the RS image can be measured.
僅從滾動快門散斑影像恢復位移訊號在本質上是不適定的:散斑圖案是一種隨機、高對比的圖案,其空間結構與振動無關。在不知道原始(未偏移)散斑圖案的情況下,無法區分由振動造成的空間特徵與散斑本身固有的特徵。這正是全域快門相機不可或缺的原因。GS 相機在單一瞬間擷取相同的散斑圖案,提供空間上未失真的參考。由於兩台相機從幾乎相同的視角觀測同一場景,GS 影像作為基準真值基線,可據此量測 RS 影像中逐列的偏移量
段落功能 核心設計論證——解釋為何需要雙相機系統以及 GS 相機的角色。
邏輯角色 此段是全文論證結構的關鍵環節:先承認單 RS 方案的不適定性(誠實的自我限制),再以 GS 相機作為解決方案。這種「提出問題-立即解決」的節奏使讀者感受到方法的完整性。
論證技巧 / 潛在漏洞 以「不適定性」這一數學概念精確描述問題的根源,比模糊地說「困難」更具說服力。但 GS 相機本身也擷取了一個特定瞬間的散斑狀態——若該瞬間振動幅度很大,GS 參考本身可能不是真正的「靜態」基線。
The speckle shift between the RS and GS images is estimated using normalized cross-correlation (NCC) computed on small local patches centered around each pixel. For each row k in the RS image, a horizontal strip is cross-correlated with the corresponding strip in the GS image, yielding a sub-pixel displacement estimate Δx(k). By performing this operation for all N rows, we obtain a one-dimensional displacement signal sampled at the effective rate of 1/tr. The use of NCC ensures robustness to local intensity variations and speckle contrast changes that may arise from differences in the optical paths of the two cameras.
RS 與 GS 影像之間的散斑偏移透過在每個像素周圍的小型區域區塊上計算正規化互相關(NCC)來估測。對於 RS 影像中的每一列 k,將一條水平條帶與 GS 影像中對應的條帶進行互相關運算,得到亞像素精度的位移估計量 delta_x(k)。對所有 N 列執行此運算後,我們獲得以等效速率 1/t_r 取樣的一維位移訊號。NCC 的使用確保了對區域強度變化與散斑對比度變化的穩健性,這些變化可能源自兩台相機光路的差異。
段落功能 演算法細節——描述從雙快門影像對中提取位移訊號的具體計算步驟。
邏輯角色 將概念層級的「比對 RS 與 GS」具體化為可實作的演算法。NCC 作為成熟的模板匹配方法,降低了實作門檻,也增強了方法的可重現性。
論證技巧 / 潛在漏洞 選擇 NCC 而非光流或深度學習方法,顯示作者偏好可解釋且計算效率高的傳統方法。但 NCC 的區塊大小選擇涉及空間解析度與估測穩定性之間的權衡——區塊太小則雜訊大,太大則無法分辨相鄰振動源。此權衡未被充分討論。
A significant advantage of the dual-shutter approach is its inherent ability to sense vibrations from multiple sources simultaneously. Since the cross-correlation is computed independently for each spatial location in the image, different regions of the sensor naturally correspond to different objects in the scene. When multiple vibrating objects are present, each object's vibration signal is spatially localized in the displacement map, enabling simultaneous recovery without any source separation algorithm. This spatial multiplexing capability is analogous to a microphone array but with far denser spatial sampling — one "microphone" per pixel.
雙快門方法的一項顯著優勢是其內在的同時感測多源振動能力。由於互相關是對影像中每個空間位置獨立計算的,感測器的不同區域天然對應場景中不同物件。當多個振動物件同時存在時,每個物件的振動訊號在位移圖中被空間局部化,無需任何訊號源分離演算法即可同時恢復。此空間多工能力類似於麥克風陣列,但具有遠為稠密的空間取樣——每個像素即為一個「麥克風」
段落功能 差異化優勢——闡述多源同時感測的獨特能力。
邏輯角色 超越基本的頻率恢復,展示方法的附加價值:多源分離能力。這是相對於 LDV(單點量測)和傳統聲學方法的關鍵競爭優勢。
論證技巧 / 潛在漏洞 「每個像素即為一個麥克風」的比喻極具畫面感。但此多源分離依賴於各振動源在影像中佔據不同空間區域的假設——若兩個物件在影像中重疊(如前後排列),空間分離便不再可行。此限制條件未被明確指出。

3.3 Vibration Frequency Recovery — 振動頻率恢復

Once the per-row displacement signal Δx(k) is obtained from cross-correlation, the vibration frequency content is recovered via spectral analysis. Applying a discrete Fourier transform (DFT) to the displacement signal yields the vibration spectrum, with frequency resolution determined by Δf = 1/T = 1/(N · tr). For a sensor with 1024 rows and tr = 8μs, the frequency resolution is approximately 122 Hz, sufficient for most vibration analysis and audio recovery applications.
一旦從互相關獲得逐列位移訊號 delta_x(k),振動頻率內容便透過頻譜分析來恢復。對位移訊號施加離散傅立葉轉換(DFT)可得到振動頻譜,頻率解析度由 delta_f = 1/T = 1/(N * t_r) 決定。對於具有 1024 列且 t_r = 8 微秒的感測器,頻率解析度約為 122 Hz,對大多數振動分析與音訊恢復應用已足夠。
段落功能 頻率分析框架——說明如何從位移訊號中提取振動頻譜。
邏輯角色 方法鏈的最後一環:位移估測 -> DFT -> 頻譜。以標準訊號處理工具完成從空間域到頻率域的轉換,使整個處理管線形成閉環。
論證技巧 / 潛在漏洞 頻率解析度 122 Hz 在語音恢復中可能不夠精細——人類語音的基頻通常在 85-255 Hz,122 Hz 的解析度在基頻附近僅有 1-2 個頻率 bin。作者宣稱「足夠」可能過於樂觀,尤其對於音調辨識任務。
To recover time-varying vibration signals rather than static spectra, the system processes consecutive RS-GS frame pairs. Each frame pair yields one snapshot of the displacement signal, and the sequence of snapshots over time provides the temporal evolution of the vibration. A short-time Fourier transform (STFT) applied across frames produces a spectrogram that reveals how the vibration frequency content changes over time. For audio recovery applications, the displacement signal from each frame is treated as a short segment of the acoustic waveform, and consecutive segments are concatenated with overlap-add processing to reconstruct a continuous audio signal.
為了恢復時變振動訊號而非靜態頻譜,系統處理連續的 RS-GS 幀對。每個幀對產生位移訊號的一個快照,隨時間推移的快照序列提供了振動的時間演變。對跨幀資料施加短時傅立葉轉換(STFT)產生時頻譜圖,揭示振動頻率內容隨時間的變化。在音訊恢復應用中,每幀的位移訊號被視為聲學波形的一個短片段,連續片段透過重疊相加處理串接以重建連續音訊訊號。
段落功能 時間擴展——從單幀分析推廣到連續時間追蹤與音訊重建。
邏輯角色 將方法從「靜態頻率偵測」擴展至「動態音訊恢復」,是從技術展示到實際應用的關鍵橋樑。重疊相加處理是訊號處理的標準技術,確保了重建訊號的連續性。
論證技巧 / 潛在漏洞 以 STFT 與重疊相加等成熟工具完成音訊重建,降低了對特殊演算法的依賴。但相鄰幀之間的相位連續性是一個潛在問題——若幀間的 GS 參考本身也在隨振動變化,拼接可能產生不連續偽影。
The practical implementation requires careful calibration of the dual-camera system. The two cameras must be spatially co-registered so that corresponding pixels observe the same scene point. This is achieved through stereo calibration followed by image rectification and warping. Additionally, the temporal synchronization between the RS and GS cameras must be precise — a synchronization error of even a few microseconds could introduce systematic bias in the displacement estimates. The system uses a hardware trigger to synchronize the start of each frame acquisition, achieving sub-microsecond timing accuracy. The laser illumination is provided by a continuous-wave laser coupled with a beam expander to illuminate the region of interest.
實際建置需要對雙相機系統進行仔細的校準。兩台相機必須進行空間共配準,使對應像素觀測相同的場景點。這透過立體校準後進行影像校正與變形來實現。此外,RS 與 GS 相機之間的時間同步必須精確——即使數微秒的同步誤差都可能在位移估計中引入系統性偏差。系統使用硬體觸發器來同步每幀擷取的起始時刻,達到亞微秒的計時精度。雷射照明連續波雷射搭配擴束器提供,以照亮感興趣的區域。
段落功能 工程實現——描述硬體系統的校準與同步需求。
邏輯角色 從數學模型過渡到實際系統建置,回應讀者「這在實作上可行嗎?」的隱含疑問。詳細的校準描述增強了方法的可信度。
論證技巧 / 潛在漏洞 坦誠列出校準需求(空間配準、時間同步、雷射照明)反而增強可信度。但這些需求也暴露了系統的部署門檻——需要雷射安全措施、精密硬體觸發器與立體校準程序,距離「即插即用」的實用工具仍有距離。

4. Experiments — 實驗

The experimental prototype consists of a FLIR Grasshopper3 rolling shutter camera and a FLIR Blackfly S global shutter camera, both fitted with identical 25mm lenses and mounted on a custom bracket to minimize the baseline between them. The cameras operate at 130 frames per second with a row readout time of approximately 7.85 microseconds, yielding a theoretical maximum recoverable frequency of 63.7 kHz. Illumination is provided by a 532nm continuous-wave laser with a beam expander. The system is controlled by a PC that issues synchronized hardware triggers to both cameras and records the image pairs.
實驗原型由一台 FLIR Grasshopper3 滾動快門相機與一台 FLIR Blackfly S 全域快門相機組成,兩者皆裝配相同的 25mm 鏡頭,並安裝在自訂支架上以最小化基線距離。相機以每秒 130 幀運作,列讀出時間約為 7.85 微秒,理論最大可恢復頻率為 63.7 kHz。照明由 532nm 連續波雷射搭配擴束器提供。系統由一台電腦控制,向兩台相機發送同步硬體觸發訊號並記錄影像對。
段落功能 實驗設定——詳細列出硬體規格與系統配置。
邏輯角色 確保實驗的可重現性:提供精確的設備型號、鏡頭規格、幀率與雷射波長,讓讀者能複製實驗配置。
論證技巧 / 潛在漏洞 選用工業級但市售的相機(FLIR 系列),而非特製設備,增強了方法的可及性主張。但 532nm 綠光雷射的眼安全問題未被提及,這在實際部署中是不可忽略的考量。
In the first set of experiments, we analyze the vibration modes of tuning forks. A standard 440 Hz (A4) tuning fork is struck and imaged by the dual-shutter system. The recovered vibration spectrum shows a clear peak at 440 Hz with harmonics visible at 880 Hz, 1320 Hz, and higher. By computing the vibration spectrum at each spatial location, we generate a spatial vibration mode map that reveals the expected pattern of nodes and antinodes along the tuning fork prongs. When two tuning forks of different frequencies (440 Hz and 523 Hz) are simultaneously struck and placed in the scene, the system successfully separates and identifies both fundamental frequencies and their spatial distribution, demonstrating the multi-source capability.
在第一組實驗中,我們分析音叉的振動模態。敲擊一支標準 440 Hz(A4)音叉並以雙快門系統成像。恢復的振動頻譜在 440 Hz 處顯示清晰峰值,並可見 880 Hz、1320 Hz 及更高次的諧波。透過在每個空間位置計算振動頻譜,我們生成空間振動模態圖,揭示了音叉齒沿長度方向上預期的節點與波腹分布模式。當兩支不同頻率的音叉(440 Hz 與 523 Hz)同時敲擊並置於場景中時,系統成功分離並辨識了兩個基頻及其空間分布,展示了多源處理能力。
段落功能 基礎驗證——以物理性質已知的音叉作為定量驗證基準。
邏輯角色 以音叉這一物理性質完全已知的物件作為驗證起點是經典的實驗策略:基頻、諧波、模態形狀皆可與理論預測精確比對。雙音叉實驗直接驗證了多源分離的核心宣稱。
論證技巧 / 潛在漏洞 音叉實驗的說服力極強——頻率峰值與已知值精確吻合,模態形狀與物理預測一致。然而,音叉是理想的單頻振動源,實際應用中的振動訊號遠為複雜。雙音叉實驗中兩者頻率差距明顯(83 Hz),更具挑戰性的是頻率接近的多源場景。
The most compelling demonstration is audio recovery from speech and music. A loudspeaker playing recorded speech is placed behind a thin reflective surface (such as a piece of aluminum foil or a plastic bag). The vibrations induced on the surface by the sound waves are captured by the dual-shutter system. From the recovered displacement signals, we reconstruct intelligible audio that preserves the speaker's identity and prosody. Similarly, for music played through a speaker, the recovered audio faithfully reproduces the melody and harmonic structure. We also demonstrate recovery of live human speech by directing the laser at a surface near the speaker — the recovered signal, while noisier, remains intelligible and captures the fundamental frequency and formant structure of the speech.
最引人注目的展示是從語音與音樂中恢復音訊。將播放錄製語音的揚聲器置於薄反射面(如鋁箔或塑膠袋)後方。聲波在表面引起的振動被雙快門系統擷取。從恢復的位移訊號中,我們重建了保留說話者身份與語調的可辨識音訊。類似地,對於透過揚聲器播放的音樂,恢復的音訊忠實重現了旋律與和聲結構。我們亦展示了對現場人類語音的恢復——將雷射對準說話者附近的表面——恢復的訊號雖然較有雜訊,但仍可辨識,並擷取了語音的基頻與共振峰結構。
段落功能 旗艦應用展示——以語音與音樂恢復呈現系統的實際應用價值。
邏輯角色 從物理驗證(音叉)過渡到應用驗證(語音恢復),展示系統在現實世界中的實用價值。「光學麥克風」的概念在此得到最直觀的體現。
論證技巧 / 潛在漏洞 分三個遞增的難度等級展示(揚聲器語音 -> 揚聲器音樂 -> 現場語音),是有效的實驗設計。但「可辨識」(intelligible)是主觀評價指標,缺乏標準化的語音品質量化度量(如 PESQ、STOI)。「較有雜訊但仍可辨識」的描述模糊——具體的訊雜比數值更具說服力。
To validate the system's capability at the upper frequency limit, we test with ultrasonic vibration sources operating at 20kHz, 40kHz, and beyond. Using a piezoelectric transducer driven at known frequencies, we confirm that the system accurately recovers vibration frequencies up to approximately 63kHz, consistent with the theoretical prediction. At frequencies approaching the Nyquist limit, the spectral peaks become broader due to the finite window length, but remain clearly identifiable. Below 50Hz, the system's frequency resolution is insufficient for accurate recovery, representing the practical lower bound. This frequency range of approximately 50Hz to 63kHz covers the vast majority of acoustic and structural vibration applications.
為驗證系統在頻率上限的能力,我們以 20kHz、40kHz 及更高頻率的超聲波振動源進行測試。使用以已知頻率驅動的壓電轉換器,我們確認系統可精確恢復高達約 63kHz 的振動頻率,與理論預測一致在接近奈奎斯特極限的頻率處,頻譜峰值因有限窗長而變寬,但仍可清楚辨識。在 50Hz 以下,系統的頻率解析度不足以進行精確恢復,這代表了實際的下限。此約 50Hz 至 63kHz 的頻率範圍涵蓋了絕大多數聲學與結構振動應用。
段落功能 極限驗證——測試系統在理論頻率邊界附近的實際表現。
邏輯角色 誠實地標定系統的實際工作頻率範圍(50Hz-63kHz),既驗證了理論上限,也坦承了下限。這種雙向邊界測試增強了實驗結論的完整性。
論證技巧 / 潛在漏洞 主動報告低頻限制(50Hz 以下不佳)是好的學術實踐。但 50Hz 的下限意味著人類語音的基頻低端(男性低音約 85Hz)可能已處於邊緣區域。「涵蓋絕大多數應用」的宣稱對於低頻結構振動監測可能過於樂觀。

5. Conclusion — 結論

We have presented Dual-Shutter Optical Vibration Sensing, a technique that repurposes the rolling shutter mechanism — traditionally considered an imaging defect — as a high-frequency temporal encoder for vibration measurement. By pairing a rolling shutter camera with a global shutter camera, both operating at a modest 130 frames per second, we achieve vibration sensing at frequencies up to 63kHz, representing a roughly 500-fold improvement over the camera frame rate. The system enables simultaneous sensing of multiple vibration sources with dense spatial sampling, effectively functioning as an optical microphone array with one sensor per pixel.
本文提出了雙快門光學振動感測技術,將傳統上被視為成像缺陷的滾動快門機制重新利用為振動量測的高頻時序編碯器。透過將滾動快門相機與全域快門相機配對——兩者皆以僅每秒 130 幀運作——我們實現了高達 63kHz 的振動感測,相對於相機幀率提升約 500 倍。該系統以稠密的空間取樣同時感測多個振動源,實質上作為每像素一個感測器的光學麥克風陣列。
段落功能 貢獻總結——重申核心創新與量化成果。
邏輯角色 結論首段呼應摘要結構,以精煉語言重述三大核心貢獻:(1) 滾動快門的重新詮釋;(2) 500 倍頻率提升;(3) 多源空間平行感測。形成完整的論證閉環。
論證技巧 / 潛在漏洞 以「傳統缺陷轉化為優勢」的敘事主線貫穿全文,修辭一致性極強。但結論中再次使用「500 倍」數字而未提及適用條件(需雷射照明、散斑成像),可能對非專業讀者產生過度期待。
Our work opens several promising research directions. Extending the approach to work with ambient light instead of laser illumination would dramatically broaden its applicability, though this requires overcoming the much weaker displacement signals in natural scenes. Combining our spatial encoding with learned priors from deep neural networks could enable vibration recovery from even noisier measurements. The dual-shutter principle could also be implemented in a single camera with a programmable shutter, reducing the system complexity. We believe this work demonstrates the broader principle that computational photography techniques can transform sensor limitations into sensing capabilities, suggesting that many other "defects" in imaging systems may be repurposed for novel sensing modalities.
本研究開啟了數個有前景的研究方向。將方法擴展至使用環境光而非雷射照明將大幅拓展其適用性,但這需要克服自然場景中遠為微弱的位移訊號結合我們的空間編碼與深度神經網路學習到的先驗知識,有望從更嘈雜的量測中恢復振動。雙快門原理亦可在具有可程式快門的單一相機中實現,降低系統複雜度。我們相信本研究展示了一個更廣泛的原則:計算攝影技術可將感測器的限制轉化為感測能力,暗示成像系統中許多其他「缺陷」可被重新利用於新穎的感測模式。
段落功能 未來展望與限制坦承——指出延伸方向並隱含承認現有限制。
邏輯角色 結論尾段從特定技術昇華至通用原則:「缺陷即能力」。這種哲學層次的提煉將論文的影響力擴展至整個計算攝影領域,超越了單一應用的範疇。
論證技巧 / 潛在漏洞 以「缺陷轉化為能力」作為全文的哲學總結,極具啟發性,這也是本文獲 Honorable Mention 的重要原因之一。但未來方向中的「環境光擴展」實際上是一個極為困難的開放問題——自然場景中缺乏散斑這一核心資訊載體,可能需要完全不同的方法框架。

論證結構總覽

問題
非接觸式振動感測
受限於相機幀率
論點
滾動快門的逐列曝光
可作為時序編碼器
證據
音叉模態、語音恢復
超聲波頻率驗證
反駁
GS 參考解決不適定性
NCC 確保穩健估測
結論
感測器缺陷可轉化
為新穎感測能力

作者核心主張(一句話)

利用滾動快門的逐列曝光時間差作為天然的高頻時序編碼器,搭配全域快門參考影像進行解碼,可在僅 130Hz 的感測器上實現高達 63kHz 的多源振動同時感測。

論證最強處

概念的優雅逆轉:將滾動快門這一普遍被視為成像缺陷的機制,重新詮釋為可資利用的時序編碼工具,展現了計算攝影「化限制為優勢」的核心精神。雙快門互補的設計簡潔地解決了散斑解碼的不適定問題,且多源空間分離能力超越了所有現有的點量測方法。

論證最弱處

應用場景的受限性:系統需要雷射照明與散斑成像這一前提條件,限制了在自然光場景中的適用性。語音恢復的品質評估僅以「可辨識」這類主觀描述呈現,缺乏標準化的語音品質度量指標(如 PESQ、STOI)。此外,雙相機的精密校準與同步需求提高了實際部署的門檻。

Thesis 核心論點
Concept 關鍵概念
Evidence 實證證據
Rebuttal 讓步反駁
Method 方法論