社會網絡數據與通常數據的比較論文
1社會網絡分析的獨特視角
對于大多數人來說,社會網絡是由人和人之間的關系所組成的網絡,如果將人看成是點或頂點,而將關系看成是連結或邊,那么社會網絡則是由點和邊組成的網絡。對社會網絡進行研究的歷史,可以說比任何其他如計算機網絡都更加久遠,而且所探討的問題也更加深入。在社會學中,個體一般通常稱為行動者(又稱為行為人),本文也遵從社會學的這種慣例。社會網絡是一種基于網絡而非群體的社會組織形式,是西方社會學從1960年興起的一種分析方法和視角。社會網絡分析是研究社會關系的,而不是個人屬性的。如果從社會網絡分析的觀點來看,社會環境可以表述為互相作用的行動者之間的關系模式或規律性,將關系中存在的一般模式稱為結構,將測度結構的量稱為結構變量。社會科學中所探討的關系可以是多種多樣的,比如經濟的、政治的、情感的等,不勝枚舉。從本質上看,探索關系以及關系模式的關鍵在于需要一組與傳統統計學和數據分析方法截然不同的方法及分析觀念。
1.1社會網絡分析的獨特之處
在社會科學中,社會網絡分析和研究方法具有其獨特的視角。這個獨特之處是:社會網絡分析是建立在互相作用的行動者之間關系的重要性假設之上。社會網絡視角包括以關系的概念或過程表達的理論、模型和應用,即由行動者之間的關系(又稱連結)所界定的關系是網絡理論的基本成分。隨著網絡分析的深入研究和應用越來越廣泛,逐漸達成對網絡視角賴以存在的中心原則的共識。這些原則就構成了社會網絡分析區別于其他社會學科的研究方法論。除了關系概念外,還有其他幾項也是重要的:(1)行動者和他們的行動被視為相互依賴的,而不是相互獨立的自治的個體;(2)行動者之間的聯系(連結)是資源轉移或“流動”的通道;(3)行動者的網絡模型將網絡結構環境視為行動者行動的機遇或限制。于是,網絡模型將(社會、經濟、政治等)結構概念化作為行動者之間關系的穩定形式,關于網絡模型的建立、分析以及構成是社會網絡分析的中心任務。研究社會網絡現象并進行網絡建模的過程,一般是針對某個要探索的社會網絡現象,運用有關統計及網絡分析的觀念,來設計產生關系數據,得到有關的特定網絡概念,再進行網絡數據的統計分析及建模等,隨后對實際統計結果給予適宜的綜合解釋,整個過程如圖1所示。社會網絡分析方法的獨特之處在于,網絡分析的分析單元或構件要素不是行動者,而是一個由行動者和他們之間的連結所組成的實體。網絡方法集中于二元組(兩個行動者和他們的關系)、三元組(三個行動者和他們的關系)或者更大的系統(比如個體的子群或整個網絡)。在社會網絡分析中,社會行動者的可觀測屬性,例如人們的種族或民族特性,或者像公司或民族國家等集合體的規模和生產力,是通過行動者之間的關系模式或結構得以理解。行動者之間的相關關系是主要的,行動者的屬性則是次要的。
1.2社會網絡分析的視角
給定一組行動者,社會網絡分析能夠測度這個子集內行動者的結構變量。一個群體或更大型社會系統的關系結構,是由行動者之間的關系模式組成。網絡概念強調這樣的事實:每個行動者和其他行動者都有聯系,其他行動者中的每一個又都與或多或少的其他行動者相聯系,等等!吧鐣W絡”這個詞指的是行動者集合和他們之間的聯系。網絡分析的研究目的就是設法模擬這些關系來描述一個群體的結構。然后,研究這一結構對群體運作的影響或者這一結構對群體內行動者的影響。假如我們對一個大都市區域的企業行為感興趣,諸如給予本地非營利和慈善組織的貨幣支持的水平和類型。對于標準的社會和經濟科學方法來說,首先要界定一定數量的相關個體(企業),對其進行隨機抽樣調查(如果數量相當大),然后測度各種各樣的特性比如大小、行業、收益,對當地慈善機構或其他非營利組織的支持水平等。這里關鍵的假設是某一個體的行為不會影響其他任何個體。網絡研究者則反對做出這種假設。實際上,公司決定做它們所要做的事存在許多種方法,例如用捐贈來支持非營利組織。公司(和其他此類行動者)傾向于考慮其他行動者的行為,甚至嘗試彼此模仿。為了得到這種行為的完整描述,必須把著眼點由公司轉向公司關系,例如董事會交叉任職情況、公司高層的相識度、彼此之間的業務往來和其他關系變量。簡而言之,需要一種網絡觀點來充分地理解和模擬這種現象。
2社會網絡數據的特性
以往社會科學數據是由測量獲得的矩形列陣所構成的,如表1所示。列陣中的行表示案例、對象或觀察項,這里是某組織的四個人員。列表示屬性、或變項或測量的分值,這里是人員的年齡屬性。列陣中每一個小格子表示某行動者在某屬性方面的分值。在有些情況下,可能有第3個維度來表示不同觀察項組或多元分組。就通常數據而言,通過考察行的屬性不同來比較行動者之間相似或不相似之處;蛘吒R姺椒ㄊ牵诓煌冺椩谒行袆诱咧械姆植,考察變項的相似或不相似之處。就純形式而言,網絡數據是一種測量數據的方形列陣,其行表示案例、對象或觀察項,而列表示同一組案例、對象或觀察項。和通常數據相比,這點構成了關鍵性的差異。列陣中每一個小格子都描述了行動者之間的關系。如表2、圖3以及圖4所示。網絡數據結構,也能以屬性數據的方式來看待,通過對列陣中的行進行比較,考察不同行動者選擇的相似性;通過對列進行比較,考察不同行動者被選擇的相似性(如表2所示)。這是一種非常有用的方法,因為它有助于認識了解行動者在網絡中的相似位置。這一點是網絡分析首先要強調之處,即觀察行動者如何處于和嵌入在這個網絡之中。網絡分析也可以從第二種方式來考察數據結構,第二種方式是采用整體性或全局網絡視角。網絡研究者發現,在表2中的0與1的數目是幾乎相同的。這表明,喜歡的行為具有中等密度。另外,可比較對角線上下二半的小格子,觀察行動者有無相互選擇行為。例如,張三選擇趙五,趙五選擇張三嗎?這是網絡分析第二個要強調之處,即觀察行動者的選擇模式如何形成整體性或總體模型。盡管可將網絡數據描述成一種特別形式的通常數據,但網絡分析對于數據解讀確實具有根本的不同方式。不同于將行動者之間連結描述成“自我”的屬性,網絡分析則是考察連結的結構,哪些行動者是嵌入其間的。行動者是以關系來描述的而非屬性。而且,關系本身與行動者一樣重要。圖2給出六個行動者及其某個x屬性的分值表示。圖3給出a行動者與f行動者,d行動者與e行動者,b行動者與c行動者具有連結的情況,以及某個x屬性的分值表示。圖4提供六個行動者及其友誼交往的情況,以及網絡數據表示。綜上所述,網絡數據與通常數據的最主要差異在于:通常數據專注于行動者及其屬性,而網絡數據則聚焦于行動者及其關系。這里所要強調的差異,將會影響到研究者后續在研究設計抽樣、實施抽樣、選取尺度以及數據處理時所做的決定,因此,網絡分析所使用的工具與其他社會科學研究的大部分相同,但網絡分析研究的特別目的及其所強調的重點則不同,進而導致了網絡數據統計分析具有特殊之處。
3網絡數據不是“獨立的”
網絡數據是由行動者與關系(或‘結點’與‘連線’)所定義的。將結點(note)或行動者看成為網絡的一部分再明確不過了。盡管社會科學中的其他經驗方法,也會研究案例、對象或樣本元素等,但網絡數據卻具有一項重大的差別,即數據如何搜集而來,也就是所關注的樣本及總體的種類。網絡數據研究行動者間的關系,而不是個別的行動者及其屬性,這意味著行動者不是像其他許多研究那樣可以獨立抽樣,最典型的就是抽樣調查。假如我們研究友誼關系,若張三選為樣本,而張三又指認出七位朋友,如此就必須詢問這七位朋友的友誼關系,這七位朋友為樣本是因為張三是樣本,反之亦然,可見樣本元素不是“獨立的”。在以往非網絡研究中,結點或行動者通常是獨立的概率抽樣結果。網絡研究比較傾向于將自然發生的邊界內容的行動者納入進來。一般地說,網絡研究也不使用樣本,至少不是傳統意義上的樣本。網絡研究傾向于包含某個或多個總體的所有行動者。當然,網絡研究的總體可以是更大總體的樣本。比如,研究一個班級同學的互動模式,所有該班的同學都被列入分析,也就是班級的全體成員,而班級本身可能是通過概率方法從班級總體中抽選出來的。
3.1總體、樣本及邊界
在許多網絡研究中,以整個總體作為觀察對象,對于研究者來說,必須要相當清楚所探討的總體的邊界以及個體觀察項是如何被選擇進來的,這是一件極為重要的事。網絡數據集合通常涉及多個層次的分析,而行動者就嵌入在最低層,所以才會出現使用嵌入或嵌套這樣的術語來刻畫網絡設計。社會網絡分析幾乎很少進行抽取樣本的工作。一般地說,網絡分析要確認出總體,然后實施普查,也就是得到總體中的所有元素作為觀察單元。網絡分析考察所感興趣的全部名詞與對象,例如在生日聚會中的所有人,或宗族、組織、鄰居、社會階級如某個地區的貴族成員。抽樣調查方法經常采取截然不同的方式來決定哪個結點必須要加以研究,它將所有結點編列成名冊,有時加以分層或者聚類,然后經由概率方法選擇出個別元素。此方法的邏輯是將每一個個體處理成單獨的‘復制品’,也就是在某種意義上,彼此之間可以互換。由于網絡數據重視行動者間的關系,無法將行動者獨立抽樣出來觀測。如果一位行動者被選取,也就必須同時選擇這為自我所連結的其他行動者。因此,網絡方法研究的往往是由普查而非抽樣所得到的全體成員。網絡分析所研究的總體是各式各樣的。在某種極端的情況下,總體可能是所感興趣的符號,或是口語中的聲音;而在另一種極端情況下,國際體系中的國家組成了節點的總體。當然,最常見到的情況是由個人所構成的總體。無論在何種情況,總體元素之所以被加以研究是取決于某個邊界而定義的。網絡分析所研究的總體邊界主要存在兩種類型。一種最常見的類型是行動者本身所形成或創造的邊界。比如,班級、組織、社會、鄰居以及社區的所有成員構成了總體,他們自然而然地構成集群或網絡。所以,在某種意義上,網絡分析研究通常是以一個已知的或先驗的網絡來設定總體邊界。另一種類型是網絡分析也時常運用‘人口統計’或‘生態方法’來定義總體邊界。確定觀察對象是通過聯絡那些在同一空間區域中聯系的所有人,或者那些符合某項資格的人員,如家庭收入年均超過100萬人民幣的。在這種情況下,有理由質疑這個網絡的真實性,不過這些研究對象是由研究者所設定的抽象匯集,而不是由參與者所認定的制度化社會行動模式。網絡分析研究者可通過復制總體而擴展其研究的邊界,不僅探索一處鄰居社區,而且研究多個鄰居社區。這樣的'設計形式是利用抽樣方法來選取總體,就能通過比較總體來進行復制或假設檢驗。另一種同樣重要的擴展方式是借助于容納多層次分析,或者多模分析來加以擴充。
3.2模分析與層次分析
網絡分析傾向于將個人行動者處理成嵌入在某個具體面對面關系網絡中的人。通常,這些人際網絡會成為一種社會事實,并自我發展。例如,家庭是由具有親密關系的人所組成的網絡,但這種特定的網絡已經制度化,并且擁有稱謂與事實,從而超越僅僅是成員結點的組合的網絡。在工作關系中,個人被嵌入在組織中;在休閑關系中,個人被嵌入在自愿社團中。網絡數據集合描述了單一總體中的結點以及節點間的關系。假如感興趣的是一個班級的友誼模式,研究對象是同學友誼?墒,一個班級存在于學校之中,所以學校被設想為連結班級與其他行動者(校長、教員、圖書館員等)的網絡,而學校又隸屬于學區,于是學區又可看成是學校與其他行動者(學校董事、研究機構、人事部門等)的網絡,學區間也可能存在某種連結模型,比如交換學生、教師等。大多數網絡研究者將個人處理成被層層網絡所嵌入的人。網絡研究者將這樣的結果稱為‘多!T谇懊胬又,個別的學生和老師構成單模形態,而班級是第二個模態,學校則是第三個模態等。如果數據包括兩種不同社會實體,比如人員和組織,則稱為雙模網絡或二模網絡。當然,這種看待社會結構本質的觀點并非社會網絡研究者所獨有。統計分析就以層次或嵌套涉及來研究同樣的問題。理論研究者也討論所謂宏觀、中觀、微觀分析,或發展出區別層次的方案,如個別、小組、組織、社團、機構、社會、全球秩序等,是社會科學中最常見的系統。但是,網絡思考及方法的優勢之處在于:它使得分析人員一開始就同時聚焦多元層次分析。也就是,網絡分析總是對個體如何嵌入在結構中,以及結構是如何從個體微觀關系中形成的而感興趣。映射出這種多模關系的網絡方法的威力,就是其獨特而自成體系的研究關鍵。
4社會網絡數據的收集
網絡數據設計的另一半任務是要選取哪些結點或關系需要進行測量。關于這個專題有兩個方面的內容。在許多網絡研究中,某個給定類型的所有節點都被納入研究,也就是實施普查。有時候,因為經濟因素或需要進行推廣,而采用連結抽樣。在網絡數據中,執行的連結抽樣存在兩種形式,一組行動者可以被不同類型的節點與關系所連結,例如一個班級的學生可能彼此喜歡或不喜歡、在一起玩或不在一起玩等。當進行收集數據時,通常從所要測量的某類關系中的集合中來選取或抽樣。對于給定的行動者或節點來說,有許多策略可以決定如何收集行動者間的關系。一種方法是“全網絡”方法,此方法是尋求最大可能的信息,但其成本極高且難以執行,也可能難于推廣。另一種方法是和以往抽樣調查研究相類似的方法,這個方法會收集相對較少的網絡結構信息,但其成本較低,一般說來也較容易從樣本觀察推廣到更多的總體上。實際上,對于研究的專題和問題而言,不存在所謂“正確”的方法。
4.1全網絡方法
全網絡方法需要收集每一位行動者間的所有連結信息。從本質上看,此方法就是針對行動者總體中的連結執行普查,而不是抽樣。例如,從國際貨幣基金組織(IMF)收集所有國與國之間的銅礦轉運數據,或者計算某國家兩兩城市間的交通流量等。由于所收集的是一對或對點之間的信息,全網絡數據提供了對于總體關系的完整景象。大部分的網絡分析特殊途徑及方法都是為了研究全網絡數據,許多網絡分析的結構概念需要通過全網絡數據來定義與測量,例如中介性。全網絡提供了社會結構相當有利的描述與分析,但其成本極高,且不容易收集。即便對于任何小群體來說,收集所有成員數據,并請成員間相互評價或排序都是一件挑戰的任務?梢姡瑢τ诖笮涂傮w,要獲得所有成員以及關系方面的數據幾乎是不可能的。
4.2滾雪球方法
從一個焦點行動者或一組行動者開始,每位行動者指出與其他行動者的部分或全部連結,然后追蹤所有(不在原始名冊中)的行動者,并詢問他們所擁有的部分或全部連結,這個過程一直持續到沒有新的行動者被提出來為止,或者研究者決定停止為止,這種方法稱為滾雪球方法。滾雪球方法非常適用于尋找特殊總體。事業網絡、社區精英、親族網絡以及其他可通過滾雪球方法有效確定與描述的結構。有時,滾雪球方法也不如想象中那么難以找到終結的范圍,有限的強連結數目以及連結的互惠趨勢,都有助于找到邊界。盡管滾雪球方法擁有實用方便的優點,但也有一定的局限性。其局限性可以歸納為兩點:(1)沒有被連結的行動者也就是孤立點,無法通過此方法找到,而孤立點的存在與否對于有些研究目的來說是十分重要的總體特征。(2)滾雪球方法無法保證找到總體中的所有連結的個體。應該從哪一處開始滾雪球訪問呢?如果起始點出現錯誤了,就可能漏失那些相互連結但卻與起始點不相連的整個次級行動者群體。
4.3自我中心網絡
在許多情況下,從焦點節點找出整個網絡是不可能的或者不需要的。一種替代方法是選取焦點節點,然后觀察其所連結的其他節點,最后再觀察其他節點間的連結情況。這就需要訪問每個節點,有時可以要求自我報告出其他節點間的連結情況。這種方法可相當有效地從非常大的總體中來收集關系數據,并與屬性方法有機結合起來。例如,從一所大學的男性大學生中隨機抽樣,再詢問誰是他們的好朋友以及這些朋友間的交往關系。這個方法對于此類嵌入個體的網絡提供相當清晰可靠的景象,它說明節點有多少連結,以及這些節點交織成群的程度,這對認識嵌入在網絡中的自我所擁有的機會及局限性具有很大的幫助。自我中心網絡聚焦在個體而非整個網絡,通過收集與焦點自我形成連結的關系信息,可以獲得明確的“局部網絡”或個體鄰居景象,這有助于認識網絡是如何影響個體的,同時也描繪出整個網絡的部分特質的景象。在以往的社會科學行動者與屬性數據集合中,每一個行動者都可由多個變量來刻畫。在最常用的社會網絡行動者與行動者的數據集合中,僅僅是描述了一類關系,如同我們總是對行動者的多元屬性感興趣一樣,行動者在網絡中的多種類型連結也同樣引人關注。比如,設想在某所大學的某系教師間的網絡連結,他們可能共有一群學生,就任于某個共同的委員會,或有一個或多個相同的專長,甚至曾共同發表論文。盡管文獻中已經出現一些研究多重關系數據的方法,例如網絡相關等,但不像單一關系,探索多重關系數據的方法發展較緩慢。
5測量尺度
5.1關系的二值測量
迄今為止,最常用的測量關系(如賦予數字)是直接區分關系之有無,不存在關系為0,存在關系為1。例如,在調查采訪中,詢問受訪者“名單中你喜歡哪一位?”這就是一個二值測量,任何被選中的都要編碼為1,未被選中的就編碼為0。大部分的數學圖論,以及對行動者和網絡屬性的測量算法,其發展都是針對二值數據。二值數據在網絡分析中被廣泛運用,因此,在正式分析之前都要將‘較高’層次的測量數據轉換成二值數據。為此,首先選取一個“割點”,然后重新對這個割點之上下賦予新值(1與0)。這樣將數據二分,其實是一種信息的取舍。研究者必須考慮什么是相關的(比如,理論的重點是什么?是涉及聯系之有無或模式,還是聯系的強度?需要利用何種算法來決定數據編碼的合理性呢?由于二值數據非常簡明,所以出現數據的損失也是值得的。
5.2關系的多類別名義測量
在收集數據時,要求受訪者依據名單,用最適當的方式來區分名單中的人員:朋友、商業伙伴、親戚或者無關系。于是,就將名單中的人用“1”、“2”等數據辨識不同關系。這些都是名義或定性尺度,即受訪者與名單中的每一個人的關系是以類別而不是強度來編碼的。和二值名義不同的是,多類別名義測量是一種多元選擇。多類別名義測量方法最經常被用于構建一系列的二值測量。也就是上述訪問所獲得的數據,以朋友、商業伙伴、親戚等關系分別建立不同的數值集合,這類似于統計分析中處理多項選擇時所使用的“虛擬編碼”。然而,在考察所得數據時必須注意,在構建網絡中每一個節點只有一個連結,即由于訪問問題所致,一個人只有親屬關系或非親屬關系——不能同時是二者,所以網絡的密度會偏低,且矩陣之間也會存在負相關。這類多元選擇數據也能加以二值化處理,也就是可以忽略某些類型的連結直接對二元間是否存在關系進行編碼,這對某些分析來說是可行的。分組次序測量可用于反映關系的一系列不同的數量特性。網絡分析通常想要描述連結的“強度”,而強度表示許多意義。互動的頻率是其中一個揭示行動者每日、每周或每月等聯絡情況的。另一個內容是強度,也就是通常反映關系所引發的情緒情況。當連結是互惠時,也被看成是較強的連結,互惠性通常利用詢問成對行動者的彼此感覺來評估。當然,也可探尋每位行動者對于互惠程度的認知:你認為你們彼此不喜歡對方嗎,或是喜歡X超過X喜歡你,或X喜歡你多于你喜歡X,或你們彼此喜歡的程度相同呢?最高階的測量層次是可使關系區分達到能明確表示的程度,比如“這個連結是那個連接強度的兩倍”。這時,連結強度的陳述尺度1與2之間所反映的差異正如同23與24間的差異一樣。許多種類的關系強度的區間尺度是非常容易建立的。但是,通過問卷或訪問方式請求受訪者指出其連結的頻率與強度細節,其結果就未必可靠,尤其是所追蹤的關系不是相當顯著或頻率不高時更是如此。因此,與其詢問兩個人間有無來往,不如計算兩人間的e-mail、電話、辦公室信件往來的數目;與其詢問兩個國家間是否有貿易往來,不如觀察兩個間收支平衡的統計數據。在許多情況下,可以運用人工數據或觀察(如針對某個其他目的而收集的統計數據)來建立關系強度的區間尺度。
6結論
社會網絡分析已經融合社會學、數學、統計學等多學科的內容及方法,并發展出獨具特色的研究手段和途徑。就統計分析而言,社會網絡分析既采用通常統計數據的分析方法,又采用‘數學社會學’的方法,這里數學方法傾向于運用決定論視角處理數據,即將測量所得關系及其強度看成真實反映最終的或者均衡的網絡狀況。數學方法傾向于假設:觀察對象不是較大總體的樣本,而是將觀察對象看成通常的關注總體。統計分析則傾向于將關系強度的特定數值看成是一種潛在的真實趨勢的隨機或概率表現,或者關系強度的概率分布。同時,統計分析傾向于將特定的網絡數據看成較大類別或網絡總體的樣本,并關注當前研究成果能否在下次研究的相似抽樣中被復制出來。描述統計工具確實是概述分值分布特性的算法,也就是數學運算。推斷統計方法之所以成為統計領域的主流,原因在于評估所描述的模式重復性或似然性。推斷統計學能夠運用網絡數據分析,但因網絡數據不是“獨立”的及探索問題的視角不同,所以直接將推斷統計用于網絡數據方面,還是具有相當大的差異性。因此,對網絡數據進行統計推斷是一個仍有待進一步探索的前沿領域。
【社會網絡數據與通常數據的比較論文】相關文章:
6.數據的論文答辯