Importați date din PDF în Excel prin Power Query

Sarcina de a transfera date dintr-o foaie de calcul dintr-un fișier PDF pe o foaie Microsoft Excel este întotdeauna „distractiv”. Mai ales dacă nu aveți un software scump de recunoaștere precum FineReader sau ceva de genul ăsta. Copierea directă de obicei nu duce la nimic bun, pentru că. după lipirea datelor copiate pe foaie, cel mai probabil acestea se vor „lipi” într-o singură coloană. Deci, acestea vor trebui apoi separate cu grijă folosind un instrument Text pe coloane din filă Date (Date — Text în coloane).

Și desigur, copierea este posibilă doar pentru acele fișiere PDF în care există un strat de text, adică cu un document care tocmai a fost scanat de pe hârtie în PDF, acest lucru nu va funcționa în principiu.

Dar nu este atât de trist, într-adevăr 🙂

Dacă aveți Office 2013 sau 2016, atunci în câteva minute, fără programe suplimentare, este foarte posibil să transferați date din PDF în Microsoft Excel. Și Word și Power Query ne vor ajuta în acest sens.

De exemplu, să luăm acest raport PDF cu o grămadă de text, formule și tabele de pe site-ul web al Comisiei Economice pentru Europa:

Importați date din PDF în Excel prin Power Query

... și încercați să scoateți din el în Excel, spuneți primul tabel:

Importați date din PDF în Excel prin Power Query

Sa mergem!

Pasul 1. Deschideți PDF în Word

Din anumite motive, puțini oameni știu, dar din 2013 Microsoft Word a învățat să deschidă și să recunoască fișierele PDF (chiar și cele scanate, adică fără un strat de text!). Acest lucru se face într-un mod complet standard: deschideți Word, faceți clic Fișier – Deschide (Fișier — Deschide) și specificați formatul PDF în lista derulantă din colțul din dreapta jos al ferestrei.

Apoi selectați fișierul PDF de care avem nevoie și faceți clic Operatii Deschise (Deschis). Word ne spune că va rula OCR pe acest document la text:

Importați date din PDF în Excel prin Power Query

Suntem de acord și în câteva secunde vom vedea PDF-ul nostru deschis pentru editare deja în Word:

Importați date din PDF în Excel prin Power Query

Desigur, designul, stilurile, fonturile, anteturile și subsolurile etc. vor zbura parțial din document, dar acest lucru nu este important pentru noi - avem nevoie doar de date din tabele. În principiu, în această etapă, este deja tentant să copiați pur și simplu tabelul din documentul recunoscut în Word și pur și simplu să îl lipiți în Excel. Uneori funcționează, dar mai des duce la tot felul de distorsiuni ale datelor – de exemplu, numerele se pot transforma în date sau pot rămâne text, ca în cazul nostru, pentru că. PDF utilizează non-separatori:

Importați date din PDF în Excel prin Power Query

Deci, să nu tăiem colțuri, ci să facem totul puțin mai complicat, dar corect.

Pasul 2: Salvați documentul ca pagină web

Pentru a încărca apoi datele primite în Excel (prin Power Query), documentul nostru în Word trebuie să fie salvat în formatul paginii web – acest format este, în acest caz, un fel de numitor comun între Word și Excel.

Pentru a face acest lucru, accesați meniul Fișier – Salvare ca (Fișier — Salvare ca) sau apăsați tasta F12 pe tastatură și în fereastra care se deschide, selectați tipul fișierului Pagina web într-un singur fișier (Pagină web — Fișier unic):

Importați date din PDF în Excel prin Power Query

După salvare, ar trebui să obțineți un fișier cu extensia mhtml (dacă vedeți extensii de fișiere în Explorer).

Etapa 3. Încărcarea fișierului în Excel prin Power Query

Puteți deschide fișierul MHTML creat în Excel direct, dar apoi vom obține, în primul rând, tot conținutul PDF-ului simultan, împreună cu text și o grămadă de tabele inutile și, în al doilea rând, vom pierde din nou date din cauza incorecte. separatoare. Prin urmare, vom face importul în Excel prin programul de completare Power Query. Acesta este un add-on complet gratuit cu ajutorul căruia puteți încărca date în Excel din aproape orice sursă (fișiere, foldere, baze de date, sisteme ERP) și apoi puteți transforma datele primite în orice mod posibil, dându-i forma dorită.

Dacă aveți Excel 2010-2013, atunci puteți descărca Power Query de pe site-ul oficial Microsoft - după instalare veți vedea o filă Interogare de alimentare. Dacă aveți Excel 2016 sau mai nou, atunci nu trebuie să descărcați nimic - toată funcționalitatea este deja încorporată în Excel în mod implicit și se află în fila Date (Data) in grup Descărcați și convertiți (Obține și transformă).

Deci mergem fie la filă Date, sau pe filă Interogare de alimentare și alegeți o echipă Pentru a obține date or Creare interogare – Din fișier – Din XML. Pentru a face vizibile nu numai fișierele XML, schimbați filtrele din lista derulantă din colțul din dreapta jos al ferestrei la Toate fișierele (Toate filele) și specificați fișierul nostru MHTML:

Importați date din PDF în Excel prin Power Query

Vă rugăm să rețineți că importul nu se va finaliza cu succes, deoarece. Power Query așteaptă XML de la noi, dar de fapt avem un format HTML. Prin urmare, în următoarea fereastră care apare, va trebui să faceți clic dreapta pe fișierul de neînțeles pentru Power Query și să specificați formatul acestuia:

Importați date din PDF în Excel prin Power Query

După aceea, fișierul va fi recunoscut corect și vom vedea o listă cu toate tabelele pe care le conține:

Importați date din PDF în Excel prin Power Query

Puteți vizualiza conținutul tabelelor făcând clic pe butonul stâng al mouse-ului în fundalul alb (nu în cuvântul Tabel!) al celulelor din coloana Date.

Când tabelul dorit este definit, faceți clic pe cuvântul verde Tabel – și „cădeți” în conținutul său:

Importați date din PDF în Excel prin Power Query

Rămâne de făcut câțiva pași simpli pentru a-și „pieptăna” conținutul, și anume:

  1. ștergeți coloanele inutile (clic dreapta pe antetul coloanei - Elimină)
  2. înlocuiți punctele cu virgule (selectați coloanele, faceți clic dreapta - Înlocuirea valorilor)
  3. eliminați semnele egale din antet (selectați coloanele, faceți clic dreapta - Înlocuirea valorilor)
  4. eliminați linia de sus (Acasă – Șterge linii – Șterge liniile de sus)
  5. elimina liniile goale (Acasă – Șterge linii – Șterge linii goale)
  6. ridicați primul rând la antetul tabelului (Acasă – Folosiți prima linie ca titluri)
  7. filtrați datele inutile folosind un filtru

Când masa este adusă la forma sa normală, aceasta poate fi descărcată pe foaie cu comanda închideți și descărcați (Închidere și încărcare) on Principalul fila. Și vom obține o asemenea frumusețe cu care putem deja lucra:

Importați date din PDF în Excel prin Power Query

  • Transformarea unei coloane într-un tabel cu Power Query
  • Împărțirea textului lipicios în coloane

Lasă un comentariu